問題タブ [stop-words]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
perl - Perlは複数のファイルからストップワードを削除します
ファイルからストップワードを削除する方法について多くのフォームを読みました。私のコードは他の多くのものを削除しますが、ストップワードも含めたいと思います。これは私が到達した距離ですが、私は何が欠けているのかわかりません。ご意見をお聞かせください
solr - ユーザークエリにストップワードのみが含まれている場合、Solr からすべての結果を返すことは可能ですか?
ユーザークエリにストップワードのみが含まれている場合、Solr がすべての結果を返すようにしたいと考えています。オンにできるSolr構成のフラグ、またはこれを実現するために使用できるSolrクエリ構文構造はありますか?
クライアント側でストップワード ロジックを複製し、q=*:*
すべての用語がストップワードである場合に起動するという考えは本当に好きではありません。
mysql - ストップ ワードまたは最小ワード長のない MySQL テキスト インデックス
私は MySQL で全文検索を実行することに興味がありますが、特に関心のある単語は短い単語、または停止リストに表示される可能性が高い単語である傾向があります。たとえば、「It is」で始まるすべてのエントリを検索したい場合があります。
これに対する最善のアプローチは何ですか?すべてのストップ ワードを手動で削除し、最小ワード長を 0 に設定する必要がありますか? または、これを行う別の方法はありますか?
どうもありがとうございました。
r - つぶやきとテキストメッセージスタイルのストップワードを探しています
R を使用してツイートをマイニングし、ツイートで最も頻繁に使用される単語を取得しました。ただし、最も頻繁に使用される単語は次のようなものです。
テキストでトレンドや名前、イベントを探しています。このテキスト メッセージ スタイルの単語 (gont、wanna、... など) をコーパスから削除する方法があるかどうか疑問に思っています。それらのストップワードはありますか?任意の助けをいただければ幸いです。
algorithm - 検索エンジンのストップワード - ベスト プラクティス
検索エンジン用にドキュメントを分析する場合、いわゆるストップ ワードをインデックスに登録しないのが一般的です。ストップ ワードは、言語で頻繁に使用される、、、、a
などthe
の一般的な単語です。this
ストップ ワードがインデックス化されている場合、インデックス内のスペースを取りすぎて、検索結果の質がほとんど向上しないという考え方です。
これが常に当てはまるかどうかを知りたいです。
最新の検索エンジンでは、ストップ ワードをインデックスに登録すると、インデックス サイズが爆発的に増加しますか? それともほんのわずかな増加でしょうか。
また、ストップ ワードを削除すると、フレーズ検索にどのような影響がありますか? 「ビートルズ」と「ザ・ビートルズ」の検索は、2 つの非常に異なるもののようです。
私は Elasticsearch を使用してアプリを構築していますが、この質問は Solr、direct lucene、またはその他のバリアントにも同様に当てはまります。
r - Rでテキストファイルからストップワードリストを読み取る方法
改行文字で区切られたテキスト ファイルにカスタム ストップワード リストがあります。R スクリプトでそのファイルを使用するにはどうすればよいですか?
コード:
唯一の問題は、上記のようにハードコーディングするのではなく、ファイルから単語を読み取りたいことです。私のテキストファイルは次のようになります。
前もって感謝します。
lucene - lucene でストップワードをオーバーライドする方法
フォルダーに Lucene インデックスを作成し、txt ファイルのコンテンツにインデックスを作成しています。ストップワードのインデックス作成を行わずにコンテンツを作成したいのですが、アナライザーを通過した後、実際には検索時にストップワードをオフにしましたが、すべてのテキスト インデックスが作成されました。私は以下のコードを置きます:
サンプルファイルの内容は「インストールディレクトリ」です。「a」、「to」、「of」の検索を実行しても何も見つかりません。これは、アナライザーを正常に通過したことを意味します。ツールを使用してインデックス LUKE を表示すると、フィールドに「to install to a directory of」が含まれていることがわかりますが、「install」と「directory」のみを含む Field.TermVector の外観を見て、表示したいのはそれだけですフィールド。
ありがとうございました。
nlp - どの単語を省略しますか?
2つの文の間の類似度を見つけようとしています。2 つの単語の個々の意味の類似性を利用していることがわかります。しかし、私が持っている文章から作った辞書にはたくさんの単語があります。コンテンツに関する情報を伝えていないと思われるいくつかの単語を文章から削除したいと思います。最初に文字数の少ない単語を削除しましたが、有益な単語も削除されるため、合理的ではないと思います。
ここでいくつかの文の一部を見てください
これらの単語を含むテキスト ファイルがあれば、それらを辞書から削除し、有益な単語だけをそこに残します。
あなたが知っている英語の単語のリストはありますか?私の辞書をフィルタリングするために使用できますか?