問題タブ [stemming]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
839 参照

solr - Solr での KStem フィルターのカスタマイズ

Solr で Porter から KStem へのステミング フィルターの切り替えを評価しようとしています。direct_conflations.txt ファイルやその他のファイルを介して KStem を構成する機能への参照を参照していますが、このファイルをどのようにフォーマットする必要があるか、または KStem にこの構成ファイルをロードするように指示する方法に関するドキュメントを見つけることができないようです。

KStem をロードする schema.xml の solr 構成の例を次に示します。

Porter を使用すると、保護された単語を次のように構成できます。

KStemを構成するための同等の方法があるかどうか疑問に思っています.誰かが知っているか、これがどこに文書化されているか知っていますか?

0 投票する
1 に答える
956 参照

solr - SOLRとステミング

特定の単語をsolrの語幹から単純に除外する簡単な方法はありますか?食料品が満載のデータベースがあり、「エビフライ」などを検索するたびに「エビフライ」などの検索結果が返されます。

検索の98%近くで、他のすべてのインスタンスでのステミングは正常に機能し、ステミングを適切に維持したいと考えています。

「フライドポテト」や「フライドポテト」などの特定の単語をステミングプロセスから省略して、それらが互いに変化しないように一意にする必要があります。そのため、「フライドポテト」を検索すると、「フライドポテト」だけが検索されますが、「フライドポテト」などの単語が含まれているものは検索されません。

ありがとう!

0 投票する
2 に答える
972 参照

python - NLTK と Lucene 間の Stemmer の互換性

Java で Lucene を使用して、コーパスのインデックスを作成し、そこから単語リストを抽出しています。私は EnglishAnalyzer を使用してステム処理を行います。次に、単語リストを Python に渡し、NLTK でいくつかのことを行います。Lucene の EnglishAnalyzer で使用されるステマーと完全に互換性のある NLTK のステマーはありますか?

これを回避するために PyLucene を使用することもできますが、依存関係を最小限に抑えたいと考えています。

0 投票する
1 に答える
6467 参照

lucene - ElasticSearch Stemming

I am using ElasticSerach and I want to setup basic stemming for English. So basically, fighter returns fight or any word that contains the fight root.

I am a little confused how to implement this. I was reading through the analyzers, tokenizers and filters and there are multiple stemming algorithms that can be used in ElasticSearch. I am just not sure which combination to use - snowball, stemmer, porter stem or synonym filters.

Also, an example of the mapping would be really helpful.

0 投票する
1 に答える
586 参照

c# - 高度な検索でWordはどのようにして一致する単語形式を見つけますか?

「パフォーマンス」と「パフォーマンス」の両方が発生する単語ドキュメントがあります。Word UIで高度な検索ツールを使用すると(最終的にこれをC#プログラム検索のFind.Executeコマンドに変換する目標)、[すべての単語フォームに一致]オプションをオンにすると、異なる結果が得られます。

「perform」を検索すると、「perform」と「performance」の両方が表示されます。
「パフォーマンス」を検索すると、「パフォーマンス」は「パフォーマンス」の単語形式として登録されているはずですが、「パフォーマンス」のヒットしか得られません。

Wordが検索アルゴリズムをどのように使用するか、または「パフォーマンス」を検索すると「パフォーマンス」と「パフォーマンス」の両方の結果が表示されることを確認する方法を知っている人はいますか?

編集(7/11/12 16:34)-
私は自分自身のパターンを見つけることができるかどうかを確認するためにいくつかのテストの組み合わせを実行しました、そしてまあ...それはそれほど有望ではありませんでした(資本化が重要です!?!)。
これらの結果が得られたドキュメントは、各単語形式の大文字と小文字の両方が大文字になっている単純な単語ドキュメントでした。検索するたびに、単語の大文字と小文字の両方のバージョンが見つかりました。
これがいくつかの検索の結果とそれらの明らかな結論です (「右クリック->新しいタブで画像を開く」を実行して、フルサイズの画像の詳細を表示します)
誰かが私のためにこれを明確にするドキュメントにリンクできるなら、それは大いにありがたいです!

編集(7/12/12 9:49)-
さらに悲しいことに:Word内のインターフェイスからC#のFind.Executeコマンドに切り替えようとしましたが、matchSoundsLikeパラメーターがUIの高度な検索機能と同じように機能しません: (プログラムによるmatchSoundsLikeフラグは、matchCaseを明示的にfalseに設定していても、大文字と小文字が一致する音のようなフォームのみを検出するようです。

0 投票する
1 に答える
495 参照

search - apache Solrで単一の単語を検索するにはどうすればよいですか?

DataImportHandler を使用したインデックス作成に Apache Solr を使用しています。ドキュメントの構造は次のとおりです。

id(ロング)、タイトル(テキスト)、アブストラクト(テキスト)、pubDate(日付)

テキスト検索用に提出されたタイトルと要約を組み合わせました。私の問題は、「タイトル:ユーティリティ」をクエリすると、次のような結果が得られることです。

ID、タイトル

6、Financial Deal Insights Energy & Utilities 2008 年 12 月

11,不況下における住宅用ユーティリティ小売戦略

16,Financial Deal Insights: Energy & Utilities Review of 2008

41,ソーラーは公益事業の企業戦略の中心

「ユーティリティ」のみを検索したいのですが、ユーティリティも結果が得られます... title:"utility" と title:utility~1 も試しましたが、うまくいきませんでした。「ステミング」について読みましたが、使い方がわかりません...助けてください..ありがとう..

0 投票する
1 に答える
279 参照

solr - ステミングを使用するときに、rawquerystring に基づいて solr の結果を向上させる方法

ステミングを使用する場合、「cats」などの複数の単語を含む検索キーワードは、Solr parsedquery で「cat」に変換されます。

Solr の結果には、「cats」だけでなく「cat」にも一致するドキュメントが含まれるようになりました。

「cats」を含むドキュメントに高いブーストを与えたいのですが、他の結果 (「cats」ではなく「cat」と一致) はこれらのドキュメントの後に低いスコアで続きます。

これは可能ですか?

0 投票する
1 に答える
818 参照

lucene - ステミング+ワイルドカード:予期しない影響

作業中のlucene.net実装(2.3.2)を編集して、ステミングと自動ワイルドカード(単語の末尾に*を追加)を含めています。

ワイルドカードを使用した正確な単語は機能しないことがわかりました。(したがって、stack *はstackoverflowに対して機能しますが、stackoverflow *はヒットしません)、これの原因と修正方法について疑問に思っていました。

前もって感謝します。(また、自動ワイルドカードとステミングの両方を実装している理由を尋ねないでくれてありがとう。)

クエリを常にプレフィックスクエリにするので、クエリに「*」を追加する必要はありません。その場合、何かが明らかになるかどうかを確認します。

編集:語幹化された単語のみがワイルドカードで機能しません。例Silicate*は機能しませんが、silic*は機能します。

0 投票する
4 に答える
10715 参照

r - R ステミング文字列/ドキュメント/コーパス

Rでステミングをしようとしていますが、個々のドキュメントでしか機能しないようです。私の最終的な目標は、ドキュメント内の各用語の頻度を示す用語ドキュメント マトリックスです。

次に例を示します。

この方法は、ステミング部分では機能しますが、用語ドキュメント マトリックス部分では機能しません。

代わりに、最初に用語ドキュメント マトリックスを作成しようとしましたが、今回は単語が語幹処理されません。

ここでは、単語は明らかにステミングされていません。

助言がありますか?

0 投票する
2 に答える
117 参照

perl - Perl で Lingua::Stem の add_exceptions($exceptions_hash_ref) を使用してステミングしたくない単語を含む編集可能なファイルを読み込むにはどうすればよいですか?

Perl の Lingua::Stem モジュール ( Lingua::Stem ) を使用しており、テキスト ファイルまたはその他の編集可能なファイル形式に、語幹処理したくない単語のリストを含めたいと考えています。ファイルにいつでも単語を追加できるようにしたい。

彼らの例は次のとおりです。

これを行う最善の方法は何ですか?

私はいくつかの例外をハードコーディングする際に彼らの方法を使用しましたが、ファイルでこれを行いたいです。