問題タブ [porter-stemmer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
1607 参照

python - ステミング以外にどのような選択肢がありますか?

この['add', 'adds', 'adding', 'added', 'addition'] のような単語のリストが与えられた場合、それらすべてを同じ単語'add'にステム処理したいと考えています。これは、単語のすべての異なる動詞と名詞の形式 (ただし、形容詞と副詞の形式は除く) を 1 つにステミングすることを意味します。

それを行うステマーは見つかりませんでした。私が見つけた最も近いものは PorterStemmer ですが、上記のリストを['add', 'add', 'ad', 'ad', 'addit'] に変換します。

私はステミング技術の経験があまりありません。それで、私が上で説明したことを行う利用可能なステマーがあるかどうか尋ねたいですか? そうでない場合、それを達成する方法について何か提案はありますか?

どうもありがとう、

0 投票する
2 に答える
2155 参照

java - Lucene 4.1.0 Porter Stemmer が正しく動作しない

私は Java でアプリを操作しており、Lucene 4.1.0 を使用して Porter Stemmer メソッドを使用しています。私はこれを読んで実装しました

これは私のコードです

この方法は機能しますが、Porter Stemmer はいくつかの単語に対して適切に機能しませんでした。

  1. ソース >> ソース
  2. 結合 >> 結合
  3. 同行 >> 同行

多分アルゴリズムにバグがありますか?この問題を解決するには?

0 投票する
1 に答える
297 参照

solr - アラビア語の SOLR Snowball Porter

Snowball Porter フィルターまたはアラビア語用の同様のフィルターはありますか?

<filter class="solr.SnowballPorterFilterFactory" language="English" />

アラビア語の複数の単語を単数の単語に正規化するために必要です

0 投票する
1 に答える
383 参照

ruby - NameError: 初期化されていない定数 String::Stemmer

ruby の Stemmer gem を使用して単語をステミングしています。私は多かれ少なかれ次のようなクラス naivebayes.rb を持っています:

コードの一部を省略しました。ruby naivebayes.rb. ただし、Rails コンソールまたはコントローラーの Rails アプリ内で実行すると、次のエラーが発生しました。

これは何よりも私を困惑させます!これに似た他の問題を見つけていないので、これを解決する方法や何が欠けているのか誰かが知っているかどうか尋ねています.

ありがとう!

0 投票する
1 に答える
808 参照

solr - オランダ語の StemmerOverrideFilterFactory および SnowballPorterFilterFactory を使用して Word が正しく分析されない

ソーラー: 3.5

やあ、

次の fieldType 定義に従って、オランダ語のフィールド タイプを作成しました。

stemdict_nl.txt は、 http: //snowball.tartarus.org/algorithms/kraaij_pohlmann/stemmer.html アルゴリズムに従って 45710 語の規則を使用しています。

ほとんどの検索クエリは正常に機能しているようで、ほとんど正しい提案が得られています。

ただし、「etiketje」で検索すると問題が発生します。私のルールによると:

「etiket」にフォールバックする必要があります。ただし、「etik」にフォールバックします。フィールドを分析すると、SOLR は次のように返します。

SOLR が「Etiketje」を次のように分析することを望みます。

うまくいけば、ここの誰かが私を正しい方向に向けることができます.

0 投票する
1 に答える
143 参照

java - Lucene プロジェクトの致命的なエラー

私はたくさんのテキストメッセージを持っています。それらのコード行の下に実行します。

// 単語をトークン化する

// ステマイズ

時々私はエラーを下回ったり、時にはエラーが発生したりしません:

私は何をすべきか?

0 投票する
1 に答える
1881 参照

python - Python ステマーの問題: 間違ったステム

こんにちは、Python ステマーで単語をステミングしようとしています。Porter と Lancaster を試しましたが、同じ問題があります。彼らは、「er」または「e」で終わる正確な単語をステミングできません。

たとえば、それらはステム

これはコードの一部です

この問題を解決するアイデアはありますか?