問題タブ [stemming]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
415 参照

sql-server-2008 - MSSQL 2008 全文検索: ステミングでは文法上の性別が考慮されますか?

SQL Server 2008 の全文検索を使用して、顧客がFREETEXTTABLE()クエリを使用してレコードを取得できるようにしています。

次のような検索が与えられた場合:

または:

(それぞれ「顧客」と「読者」を表すドイツ語。)

、これらの単語の女性形にも結果が期待できます。ただし、これらの結果は、'Kundin' または 'Leserin' を明示的に検索した場合にのみ表示されます。

サーバーのデフォルトのフルテキスト言語は1031(ドイツ語など) です。言語コンポーネントはNaturalLanguage6.dll、バージョン6.0.6001.18000です。

本によると、これはうまくいくはずです:

SQL Server iFTS には、他の言語の性別規則に対応するステミング ロジックが自動的に含まれます [..]

これは機能するはずですか?そうでない場合は、A) 追加または別の言語コンポーネントをインストールするか、B) 別のフルテキスト エンジン (Lucene.NET など) を使用して動作させることはできますか?

0 投票する
4 に答える
1033 参照

perl - 検索用の基本的な語形変化のない単語を見つける方法は?

単語のすべての語形変化を同じ基本単語として扱う検索エンジンを作成しようとすると、うまくいきません。

  1. したがって、動詞の場合、これらはすべて同じ語根語である be :
    • 人数/人 (例: am; is; are )
    • 過去または未来の時制のような時制/気分 (例: was; were; will be )
    • 過去分詞 ( has been ; had been )
    • 現在分詞と動名詞 ( is being ; was not being funny ; 早いこと正しいことよりも重要ではない)
    • 仮定法 ( might be ;何かを終わらせることが重要; だったらいいのに) ⁠ ⁠ ⁠</p>

  2. 次に、名詞の場合、単数形と複数形の両方が同じ基本単語としてカウントされます [ ᴇᴅɪᴛᴏʀ's ɴᴏᴛᴇ: これは単語の引用形と呼ばれることがよくあります。]

たとえば、「<em>enable」では、「<em>enables」と「<em>enabled」を別々のエントリとして出力したくありません。これらの 3 つすべては、同じ基本単語、動詞enableとしてカウントする必要があります。

次のようなハッシュを使用して、重複の印刷を防ぐことができます。

  1. 誰かがこれを説明できますか?以下のコメントで説明します。

  2. これは、複数形/過去形の継続を止めるものではありません。これを行う方法、または完全に異なるアプローチ、おそらく正規表現および/または置換を含む方法はありますか?

印刷が正しく印刷されないため、置換で単語を変更することはできません。まだその段階ではありませんが、最終的には不規則な過去時制 [ ᴇᴅɪᴛᴏʀ's ɴᴏᴛᴇ: ] と不規則名詞も含めたいと考えています。] 同じように

私の質問に答えるために他に何が必要なのかわからないので、意図せずに省略したものを教えてください。不足しているビットがあれば、より明確にするために記入します.

0 投票する
1 に答える
3125 参照

lucene.net - Lucene.NETステミングの問題

Lucene.NETでSnowBallAnalyzerを使用すると問題が発生します。一部の単語ではうまく機能しますが、他の単語ではまったく結果が得られず、何が起こっているのかを調べるためにこれをさらに掘り下げる方法がわかりません。ここにあるUSDAFoodDescriptionファイル(http://www.ars.usda.gov/SP2UserFiles/Place/12354500/Data/SR23/asc/FOOD_DES.txt)で検索をテストしています。私は英語のステミングアルゴリズムを使用しています。「eggs」を検索すると、次の結果が得られます。

それらの結果は素晴らしいです。しかし、「アップル」を検索してもまったく結果が得られません。StandardAnalyzerを使用して「アップル」を検索すると、次の結果が得られます。

最良の結果ではありませんが、少なくとも何かを示しています。ステミングアナライザーが、結果が得られないような方法でフィルタリングする理由を知っている人はいますか?

編集:これが私が使用している私のプロトタイプコードです。

0 投票する
2 に答える
4556 参照

search - Solrでのステミングを回避するための1つの単語フレーズ検索

Solrインスタンスでステミングを有効にしました。ステミングを無効にせずに正確な単語検索を実行するには、単語を引用符で囲むのと同じくらい簡単だと思いました。しかし、これはそうではないようですか?

これを達成する簡単な方法はありますか?

0 投票する
1 に答える
1234 参照

search - スフィンクス検索で語形を処理するにはどうすればよいですか

django アプリの mysql データベースにインデックスを付けるためのスフィンクス サーバーがあります。検索は正常に機能していますが、コンテンツに医療用語/フレーズが含まれています。たとえば、「dvt」を検索して、「深部静脈血栓症」や「深部静脈血栓症」とも一致させる必要があります。ドキュメントを調べたところ、「wordforms」と「morphology」のオプションが表示されました。これら(または他のもの)のどれを使用する必要がありますか?また、何が逆に機能しますか?つまり、「深部静脈血栓症」/「深部静脈血栓症」の検索は、「dvt」と一致します。

また、私は一般的にスフィンクスを初めて使用するため、これらの設定方法についてアドバイスをいただければ幸いです。

0 投票する
2 に答える
2361 参照

nlp - 英語のlemmatizerデータベース?

次のサンプル単語に対して正しい結果を返す十分な大きさのレンマタイザーデータベースを知っていますか?

Wordnetの形態素解析器は、次の誤った結果をもたらすため、十分ではありません。

0 投票する
1 に答える
358 参照

ruby-on-rails - RubyonRails用のステミングライブラリ/プラグイン

次のようなマッピングを作成できるRubyのステミングライブラリを探しています。

0 投票する
2 に答える
3658 参照

search - Solr での正確な単語検索

この質問に密接に関連する質問があります。

私のスキーマにはフィールドがあります

これにより、完全一致が得られます。ステミング無効

食べる=食べる

単語の他のバリエーションを検索するために textgen に構成されている間に、それは可能ですか?

例えば。食べる=食べる、食べる、食べる

eat~0 は、肉、ビートなどのような響きの単語を提供しますが、これは私が望むものではありません。

これを達成する唯一の方法は、別のフィールドを textgen 以外のもので追加することだと考え始めていますが、もっと簡単な方法があれば、それを聞くことに非常に興味があります。

0 投票する
2 に答える
1751 参照

stemming - クロアチア語の単語ステミングアルゴリズムの実装はありますか?

クロアチア語の単語ステミングアルゴリズムの実装を探しています。理想的にはJavaですが、他の言語も受け入れます。

クロアチア語の検索アプリケーションを開発している英語を話す開発者のコ​​ミュニティはどこかにありますか?

ありがとう、

0 投票する
5 に答える
4354 参照

java - Java アラビア語ステマーが欲しい

アラビア語用の Java ステマーを探しています。「AraMorph」というライブラリを見つけましたが、その出力は制御不能で、不要な単語に形成されます。

アラビア語用の他のステマーはありますか?