問題タブ [stop-words]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
data-mining - 用語頻度に対するステミングの影響?
ストップワードの削除とステミングによって、用語頻度(TF)と逆文書頻度(IDF)はどのように影響を受けますか?
ありがとう!
php - the、a、or などのノイズ ワードをクリーンアップします...
私はこれがロングショットであることを知っていますが、とにかく尋ねます。
一部のテキストに対してフィルターを適用し、「The」、「a」、「and」、「or」など、英語で最も頻繁に出現する単語を削除したいと考えています...
そのような単語のかなり良いリストを取得できるように、この課題はどこかで解決されましたか?
mysql - ft_stopword_file設定の変更後にmysqlを起動するとタイムアウトエラーが発生する
ストップワードをオフにしたいので、my.cnf ファイルを更新して以下を含めます。
しかし、mysql を再起動するとタイムアウト エラーが発生します。を消去するft_stopword_file=""
と、エラーはなくなります。
構文が間違っているのでしょうか、それとも新しい設定のためにタイムアウトを増やす必要がありますか? 増加した場合、その設定はどこにありますか?
python - 単語のリストがある場合、文字列にリスト内の単語が含まれていないかどうかを効率的に確認するにはどうすればよいですか?
タイトルが示すように、「いいね」という単語のリストがあり、stopWords = ["the", "and", "with", etc...]
「キツネと犬を殺せ」のようなテキストを受け取ります。「Kill fox dog」のような出力が非常に効率的かつ高速に必要です。これを行うにはどうすればよいですか (for ループを使用して反復できることはわかっていますが、あまり効率的ではありません)。
search - Solrストップワードが機能しない
Solr3.6を使用した予測検索に取り組んでいます。スペイン語で「with」を意味する「con」(空白を含む)という単語を無視するためにSolrが必要です。solr.StopFilterFactoryを追加しました。
私のファイルには「con」のみが含まれています(引用符は含まれていません)
しかし、「Departamento con parrilla」を検索すると、Solrは何も返さないので、クエリの「con」という単語を無視して「Departamentoparrilla」を返す必要があります。
私は自分自身を理解させたと思います。
どうもありがとうございます!!!!!
mysql - MySQL 全文索引のアンダースコア
MySQL の全文索引に問題があります。アンダースコアが単語の一部として扱われます (なぜですか? わかりません)。これは、テーブルにある文字列です。VA_-_Some_Album
そして、これはそのクエリです:
+*Some*
アンダースコアが単語の一部であるため ( の_Some
代わりに)に変更しない限り、MySQL はこのクエリに対して空のセットを返しますSome
。余分なアスタリスク (*) を追加すると、プラス記号が機能しなくなり、「AND」が実行されないため、これは私にとっては良くありません。
文字セットの定義を変更し、フルテキスト インデックスを再構築しようとしましたが、何もしませんでした。
何か案は?文字列の保存方法を変更することは私次第ではありません。ありがとうございました!
lucene - Lucene 3.6.0 - SnowballAnalyzer ステマーの廃止
今日、Lucene Java API v3.6.0 でSnowballAnalyzerを使用しようとしていましたが、既に廃止されているようです。コードでアナライザーを使用しようとすると、アナライザーに到達するとコードが停止します。本当は PorterStemmer を使いたいのですが luce では利用できなかったので、この Snowball を使うことにしましたが、この問題が発生しました。
誰でもこれを修正する方法を知っていますか?
さらに、ストップワードファイル形式を設定する方法を知っている人はいますか?
stopword.txtで呼び出し、プログラムを停止します。stopword.txtファイルをフォーマットする方法を誰か教えてもらえますか?
ありがとう。
django - Solrがリソースstopwords_en.txtを見つけることができません
Solr3.6.0をDjango-haystackBeta2.0.0でセットアップしようとしています。
./manage.py build_solr_schema
schema.xmlを実行してconfディレクトリに移動した後、にアクセスすると、このスレッドhttp://localhost:8983/solr/admin
で生成されたものとまったく同じエラーが表示されます。
org.apache.solr.common.SolrException: No cores were created, please check the logs for errors
java.lang.RuntimeException: Can't find resource 'stopwords_en.txt' in classpath or 'solr/./conf/', cwd=/home/randall/startupsearch_live/apache-solr-3.6.0/example
スレッドの下部で、ユーザーは、stopwords_en.txtを/ example / solr / conf /ディレクトリに一致させるためにschema.xmlを編集する必要があると述べています。これは、シンボリックリンクとstopwords.txtのすべてのインスタンスの編集の両方で行いました。生成されたschema.xmlファイルの/solr/conf/stopwords_en.txtに移動します。ただし、同じエラーが続くため、出力がわずかに異なります。
java.lang.RuntimeException: Can't find resource '/solr/conf/stopwords_en.txt' in classpath or 'solr/./conf/', cwd=/home/randall/startupsearch_live/apache-solr-3.6.0/example
この問題を解決するには、どのファイルを編集する必要がありますか?
full-text-search - SQL Server 2008 での全文検索: 新しいストップワードを既存のストップ リストに追加する
SQL Server 2008 で FTS を実行しています。
新しいストップ ワード (約 100 個あります) を既存のストップ リストに一度に追加する必要があります。
これはどのように行うことができますか?
sql-server - CONTAINSTABLEを使用したストップワードリスト
Sql サーバーによる全文検索。FREETEXTTABLE を使用すると、ストップ ワードの検索を回避できます。しかし、CONTAINSTABLE を使用して検索すると、ストップ ワードも検索されます。
CONTAINS TABLE はストップワードリストを考慮していないと思います。
CONTAINSTABLEでストップワードが検索されないようにしたい場合、これの回避策は何ですか。