問題タブ [stop-words]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
mysql - ストップワードと MySQL ブール全文
データセットを検索するために、mysql の組み込みのブール型フルテキスト機能を使用しています。(MATCH... AGAINST 構文)。
MySql のデフォルトのストップワード リストにあるキーワードが結果を返さないという問題が発生しています。たとえば、「前」、「間」などです。
実行時にMySqlのストップワードを無効にする方法はありません(と思います)。また、共有サーバー (DreamHost) で Web サイトをホストしているため、ストップワードを無効にして MySQL を再コンパイルするオプションがありません。
上記の問題を回避する方法について誰か提案があるかどうか疑問に思っていますか? (VPSや専用システムへのアップグレードなし)
よろしくお願いいたします。
トラヴィス
lucene - Elastic Search をカスタマイズして、独自のストップ ワード リストを使用できますか?
具体的には、ストップ ワード リストなしですべて (たとえば、who) にインデックスを付けたいと考えています。エラスティック検索は十分に柔軟で、簡単に変更できますか?
c# - フルテキスト カタログで使用されているストップワードのリストを取得するにはどうすればよいですか?
SQL Server 2008 フルテキスト カタログが使用しているストップワード リストを取得する方法はありますか? そして、私のC#コードビハインドでそれを使用しますか?
用語を検索して強調表示するために使用する ASP.NET ページで使用したいと考えています。
検索ページとハイライトは既に正常に動作していますが、ハイライトを改善したいと考えています。ストップワード リストにある単語を強調表示したくありません。
solr - Solrの「保護されたフレーズ」
私の顧客は、フォトジャーナリズム (およびゴシップ) を専門とする写真代理店であるため、顧客の検索の多くは特定の人に関するものです。
見出しとキャプションで全文検索を行い、約 150 万件のドキュメントをインデックスに登録しています。タグのステミングなしの全文検索。私たちは適切なストップ ワードのリストを用意しており、正しくステミングされていないと思われる保護された単語のリストを提供しています。Dismax を使用して、見出し、キャプション、タグをさまざまなブーストで検索しています) これはすべてうまく機能しています。
ただし、正しく理解するのが難しい人もいます。たとえば、アル・ゴア。イタリア語では「al」はストップ ワードなので、「al gore」の単純なクエリ (引用符なし) は次のようになります。
これは元 VP のヒットを返しますが、もちろん「レスリー ゴア」と「ティッパー ゴア」のヒットも返します。また、ステミングのおかげで、「ゴリ」などにヒットします。並べ替えを少し置いておくと、結果が乱雑になるので、もっとうまくやりたいと思います。
検索用語を引用符で囲んでも役に立ちません。「al」は取り除かれます。「ゴア」を保護された単語としてマークすることで、誤検知の数を制限することができます。私も SynonymFilterFactory で遊んでみましたが、あまりうまくいきませんでした.SynonymFilterFactory を最初のフィルターとして持っているので、「al」はとにかく削除されます.
私が本当に必要だと思うのは、「al gore」を単一のトークンとしてトークン化する方法です。構成可能な「フレーズ」のセットについて、それを可能にするものはありますか? 私が見落としている別のアプローチはありますか?おそらくsolr.CommonGramsFilterFactory?
背景情報: Solr 1.4.0 を使用しています。schema.xml の関連部分
regex - ストップワードの削除と新しいファイルPerlの保存
「ストップワード」の配列をロードするPerlファイルを作成しました。
次に、「。ner」ファイルが含まれているディレクトリにロードします。各ファイルが開かれ、各単語が分割され、停止ファイル内の単語と比較されます。単語が単語と一致する場合は、「」に変更されます(何もありません-削除されます)。次に、ファイルを別の場所にコピーします。したがって、ストップワードのあるファイルとストップワードのないファイルを区別できます。しかし、これによりファイルがストップワードを含まないように変更されますか、それとも元に戻りますか?
分割して比較しているファイルの形式は次のとおりです。
単語を分割する場所、つまりsplit(/ | /)の概要を説明する必要がありますか?
python - Python辞書で重複する単語を無視する
「.html」ファイルを取り込んでストップワードを削除し、Python辞書の他のすべての単語を返すPythonスクリプトがあります。しかし、同じ単語が複数のファイルにある場合は、一度だけ返したいと思います。つまり、ノンストップ ワードをそれぞれ 1 回だけ含めます。
python - nltk または python を使用してストップ ワードを削除する方法
だから私はストップワードを使用から削除したいデータセットを持っています
コード内でこれを使用して、これらの単語を単に取り出す方法に苦労しています。私はすでにこのデータセットの単語のリストを持っています。私が苦労している部分は、このリストと比較してストップワードを削除することです。どんな助けでも大歓迎です。
python - nltk ストップリストに単語を追加する
データ セットからストップ ワードを削除するコードがいくつかあります。ストップ リストは大部分の単語を削除していないように見えるため、このストップ リストに単語を追加して、削除されるようにします。この場合のそれら。ストップワードを削除するために使用しているコードは次のとおりです。
単語を追加するための正しい構文がわからず、正しい構文がどこにも見つからないようです。どんな助けでも大歓迎です。ありがとう。
python - ストップワードと句読点を取り除く
NLTK ストップワードに苦労しています。
ここに私のコードがあります..誰かが何が悪いのか教えてもらえますか?
solr - Apache Solr:LukeRequestHandlerのtopTermsからストップワードを削除する
タイトルはほとんどすべてを示しています。LukeRequestHandlerを使用してSolrにtopTermsを照会していますが、リストには「is」、「a」、「do」(実際にはドイツ語)などの短い単語がたくさん含まれています。 ..。。
これらは実際にはすべて私のストップワードファイルにありますが、SolrがそれらをtopTermsとしてリストするのを防ぐ方法はありますか?
編集:うーん、ストップワードの設定を間違えた可能性はありますか?ストップワードを検索しても結果が得られます...
助けのためのthx