問題タブ [stop-words]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
1030 参照

lucene - Lucene、ストップ ワード フィルター

こんにちは、ストップ ワードでインデックスを作成するときに StandardAnalyzer を使用しています。

行にインデックスを付けるとき

Macintosh 版エクセル

このように検索するとうまくいきます

+Microsoft +Excel +for +Macintosh のインデックス作成時と同じアナライザーを検索時に使用します。

このように検索しようとすると

"Microsoft Excel for Macintosh" を "Microsoft Excel Macintosh" に変換すると結果が得られない

私の結果が 0 である理由を知っている人はいますか?

//トリンド

0 投票する
1 に答える
14799 参照

python - NLTKの小文字のストップワードとリストへのストップワードの保存

親愛なる友人、トークンという名前のリストでNLTKのストップワードを小文字にするにはどうすればよいか知りたいです。

0 投票する
5 に答える
12912 参照

java - Javaでストップワードを削除するには?

Javaでストップワードを削除したい。

そこで、テキストファイルからストップワードを読み取りました。

とストアセット

そして、別のテキストファイルを読みました。

だから、テキストファイル内の重複する文字列を削除したい。

どうやって?

0 投票する
4 に答える
390 参照

php - ストップワードなしで文字列を比較するPHP

次のようなストップワードなしで2つの文字列を比較したい

LIKE用語は、問題ないか、次のものが含まれています。例:「2つ」または「2つ」は等しいと見なされます。

0 投票する
6 に答える
16340 参照

mysql - クエリでmysqlフルテキストストップワードを無視する

全文検索を利用したサイトの検索を作成しています。検索自体はうまく機能しますが、それは私の問題ではありません。ユーザー提供のキーワード(MATCH ... AGAINST ...)とANDをつなぎ合わせて、複数の単語で結果をさらに絞り込みます。今、私は特定のストップワードが索引付けされていないことを知っています、そしてそれは私にとっては問題ありません、私はそれらを選択基準として本当に使いたくありません。ただし、ストップワードが(ユーザーによって)キーワードセットに指定されている場合、その単語が実際に特定のテキストブロックにある場合でも、(予想どおりに)すべての結果が強制終了されます。

私の質問:クエリ時に特定の単語がストップワードであるかどうかを確認する方法はありますか?私の好ましい解決策は、関連する単語を検索条件から除外することです(ユーザーが「どちらでもない」という単語で結果を絞り込むことができるかどうかは関係ありません。ユーザーが空の結果セットを返さないようにするだけです。結果にどちらも存在しない場合でも、それを提供します)。または、ストップワードリストを空にする必要がありますか?助けてくれてありがとう。

編集----申し訳ありませんが、これを提供するコードスニペットは実際にはありません。コードは正常に機能しますが、実際には期待どおりです。それは私が扱っている論理的な問題です。しかし、例として、説明の方法で:

単語を含む3つのレコードがあるとしましょう(ただし、これらに限定されません)

1:リンゴ、オレンジ、マンゴー、バナナ2:ブドウ、オレンジ、パイナップル、マンゴー3:ジャガイモ、マンゴー、メロン、キーラナイトレイ

ユーザーが入力した検索語がmangoの場合、すべての結果が正しく返されます。単語がオレンジとマンゴーの場合、結果1と2が(正しく)返されます。ここで、バナナがストップワードであるとしましょう(そうではありません...しかし、そうであると仮定しましょう)。検索がオレンジ、マンゴー、およびバナナの場合、結果は返されません(バナナは全文インデックスにないため)。

私が探しているのは、他の誰かがこの問題に遭遇し、それを回避する方法があるかどうかです。一種の:

または...ストップワードリストを削除する必要がありますか...

0 投票する
3 に答える
257 参照

python - 次のpythonコードのエラーは何ですか

ストップワードを削除したい。これが私のコードです

ただし、一部のストップ ワードのみが削除されます。これで私を助けてください

0 投票する
3 に答える
16424 参照

sql-server - ストップ ワード リストが空の場合でも、ストップ ワードが含まれていると全文検索が機能しない

すべての単語を検索できるようにしたいので、ストップ ワード リストをクリアしました。インデックスを再構築しました。残念ながら、ストップ ワードを含む検索式を入力しても、行は返されません。ストップワードだけを省略しても、結果は得られます。例: "double wear stay in place" - 結果なし、"double wear stay place" - 実際に "in" を含む結果も得られます。

なぜこれができるのか誰にも分かりますか?SQL Server 2012 Express を使用しています。

どうもありがとう!

0 投票する
1 に答える
696 参照

mysql - MySQLのストップワードを使用した全文検索

MySQLで全文検索を使用しています。しかし、ストップワードで検索すると、結果は空になります。

私が欲しいのは、LIKEで使用するような操作です。つまり、それはすべての言葉で行います。全文検索を使用した後は、LIKEよりも強力で、複数のフィールドを持つインデックスFULLTEXTで使用できると思います。

ただし、AGAINSTの検索条件がストップワードのリストにある場合、結果は空になります。

ストップワードの単語であるにもかかわらずフィルタリングするMySQLの全文検索をどのように使用できますか?または、検索アルゴリズムで使用できるその他の方法はありますか?

0 投票する
2 に答える
824 参照

nlp - MeCab にストップワードを追加するにはどうすればよいですか?

「私」、「あなた」などのストップワードを MeCab に追加したいと考えています。しかし、MeCab のマニュアルには、ストップワードの情報が見つかりません。

0 投票する
1 に答える
1110 参照

java - Java で複数の区切り文字を使用して文字列を分割する

複数の単語を使用して文字列をトークン化する必要があるデータ マイニング アルゴリズムに取り組んでいます。すべてのストップワードを含む別のファイルがあります。私がする必要があるのは、区切り文字として機能する単語 (ストップワード) のいずれかで入力文字列をトークン化することです。たとえば。
ファイルにストップワードがそのまま 含ま れ て
いる
場合


入力文字列は
「コンピューター クラスターは、互いに連携して動作する疎に接続されたコンピューターのセットで 構成 さ れ ています」
となります。




すべてのストップワードに対して文字列を再帰的にチェックすると、非常に時間がかかりますか? これには何か良い方法はありますか?