問題タブ [stop-words]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
8092 参照

data-mining - 用語頻度に対するステミングの影響?

ストップワードの削除とステミングによって、用語頻度(TF)と逆文書頻度(IDF)はどのように影響を受けますか?

ありがとう!

0 投票する
3 に答える
921 参照

php - the、a、or などのノイズ ワードをクリーンアップします...

私はこれがロングショットであることを知っていますが、とにかく尋ねます。

一部のテキストに対してフィルターを適用し、「The」、「a」、「and」、「or」など、英語で最も頻繁に出現する単語を削除したいと考えています...

そのような単語のかなり良いリストを取得できるように、この課題はどこかで解決されましたか?

0 投票する
0 に答える
90 参照

mysql - ft_stopword_file設定の変更後にmysqlを起動するとタイムアウトエラーが発生する

ストップワードをオフにしたいので、my.cnf ファイルを更新して以下を含めます。

しかし、mysql を再起動するとタイムアウト エラーが発生します。を消去するft_stopword_file=""と、エラーはなくなります。

構文が間違っているのでしょうか、それとも新しい設定のためにタイムアウトを増やす必要がありますか? 増加した場合、その設定はどこにありますか?

0 投票する
6 に答える
6772 参照

python - 単語のリストがある場合、文字列にリスト内の単語が含まれていないかどうかを効率的に確認するにはどうすればよいですか?

タイトルが示すように、「いいね」という単語のリストがあり、stopWords = ["the", "and", "with", etc...]「キツネと犬を殺せ」のようなテキストを受け取ります。「Kill​​ fox dog」のような出力が非常に効率的かつ高速に必要です。これを行うにはどうすればよいですか (for ループを使用して反復できることはわかっていますが、あまり効率的ではありません)。

0 投票する
1 に答える
1144 参照

search - Solrストップワードが機能しない

Solr3.6を使用した予測検索に取り組んでいます。スペイン語で「with」を意味する「con」(空白を含む)という単語を無視するためにSolrが必要です。solr.StopFilterFactoryを追加しました。

私のファイルには「con」のみが含まれています(引用符は含まれていません)

しかし、「Departamento con parrilla」を検索すると、Solrは何も返さないので、クエリの「con」という単語を無視して「Departamentoparrilla」を返す必要があります。

私は自分自身を理解させたと思います。

どうもありがとうございます!!!!!

0 投票する
1 に答える
1046 参照

mysql - MySQL 全文索引のアンダースコア

MySQL の全文索引に問題があります。アンダースコアが単語の一部として扱われます (なぜですか? わかりません)。これは、テーブルにある文字列です。VA_-_Some_Album

そして、これはそのクエリです:

+*Some*アンダースコアが単語の一部であるため ( の_Some代わりに)に変更しない限り、MySQL はこのクエリに対して空のセットを返しますSome。余分なアスタリスク (*) を追加すると、プラス記号が機能しなくなり、「AND」が実行されないため、これは私にとっては良くありません。

文字セットの定義を変更し、フルテキスト インデックスを再構築しようとしましたが、何もしませんでした。

何か案は?文字列の保存方法を変更することは私次第ではありません。ありがとうございました!

0 投票する
1 に答える
474 参照

lucene - Lucene 3.6.0 - SnowballAnalyzer ステマーの廃止

今日、Lucene Java API v3.6.0 でSnowballAnalyzerを使用しようとしていましたが、既に廃止されているようです。コードでアナライザーを使用しようとすると、アナライザーに到達するとコードが停止します。本当は PorterStemmer を使いたいのですが luce では利用できなかったので、この Snowball を使うことにしましたが、この問題が発生しました。

誰でもこれを修正する方法を知っていますか?

さらに、ストップワードファイル形式を設定する方法を知っている人はいますか?

stopword.txtで呼び出し、プログラムを停止します。stopword.txtファイルをフォーマットする方法を誰か教えてもらえますか?

ありがとう。

0 投票する
5 に答える
9501 参照

django - Solrがリソースstopwords_en.txtを見つけることができません

Solr3.6.0をDjango-haystackBeta2.0.0でセットアップしようとしています。

./manage.py build_solr_schemaschema.xmlを実行してconfディレクトリに移動した後、にアクセスすると、このスレッドhttp://localhost:8983/solr/adminで生成されたものとまったく同じエラーが表示されます。

org.apache.solr.common.SolrException: No cores were created, please check the logs for errors

java.lang.RuntimeException: Can't find resource 'stopwords_en.txt' in classpath or 'solr/./conf/', cwd=/home/randall/startupsearch_live/apache-solr-3.6.0/example

スレッドの下部で、ユーザーは、stopwords_en.txtを/ example / solr / conf /ディレクトリに一致させるためにschema.xmlを編集する必要があると述べています。これは、シンボリックリンクとstopwords.txtのすべてのインスタンスの編集の両方で行いました。生成されたschema.xmlファイルの/solr/conf/stopwords_en.txtに移動します。ただし、同じエラーが続くため、出力がわずかに異なります。

java.lang.RuntimeException: Can't find resource '/solr/conf/stopwords_en.txt' in classpath or 'solr/./conf/', cwd=/home/randall/startupsearch_live/apache-solr-3.6.0/example

この問題を解決するには、どのファイルを編集する必要がありますか?

0 投票する
3 に答える
1614 参照

full-text-search - SQL Server 2008 での全文検索: 新しいストップワードを既存のストップ リストに追加する

SQL Server 2008 で FTS を実行しています。

新しいストップ ワード (約 100 個あります) を既存のストップ リストに一度に追加する必要があります。

これはどのように行うことができますか?

0 投票する
0 に答える
454 参照

sql-server - CONTAINSTABLEを使用したスト​​ップワードリスト

Sql サーバーによる全文検索。FREETEXTTABLE を使用すると、ストップ ワードの検索を回避できます。しかし、CONTAINSTABLE を使用して検索すると、ストップ ワードも検索されます。

CONTAINS TABLE はストップワードリストを考慮していないと思います。

CONTAINSTABLEでストップワードが検索されないようにしたい場合、これの回避策は何ですか。