問題タブ [porter-stemmer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
1 に答える
4026 参照

elasticsearch - ElasticSearch および Porterstem アナライザー

Elasticsearch を使用してサイトの検索機能を提供することを検討しています。

私はそれを試してきましたが、Porterstem アナライザーを有効にすることができません (そのため、戦いの検索は戦いと戦いに一致します)。

これが私の入力の概要です。

ただし、「戦い」の検索を実行すると、最初のエントリ (正確な用語を含むエントリ) のみに一致します。

正しい設定がセットアップされているように見えますが、機能していないようです。

誰かがこの機能を起動して実行し、私を正しい方向に向けることができますか?

0 投票する
7 に答える
61914 参照

java - Luceneで英語の単語をステミング

Javaアプリケーションでいくつかの英語のテキストを処理しているので、それらをステム処理する必要があります。たとえば、「アメニティ/アメニティ」というテキストから、「amenit」を取得する必要があります。

関数は次のようになります。

Lucene Analyzerを見つけましたが、必要なものには複雑すぎるように見えます。 http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html

アナライザーを構築せずに単語を語幹にするためにそれを使用する方法はありますか?アナライザーのビジネスをすべて理解しているわけではありません...

編集:私は実際にステミング+レンマ化が必要です。Luceneはこれを実行できますか?

0 投票する
1 に答える
314 参照

mysql - porter または porter 2 ステミング アルゴリズム用の MySQL ルーチン

MySQL ルーチン (ユーザー定義関数) として記述された Porter または Porter 2 ステミング アルゴリズムのポートを探しています。誰も見たことがありますか?

どうもありがとう!

0 投票する
1 に答える
473 参照

php - PHPで単語の派生語をすべて取得するツールはありますか?

「顔」を入力して、「顔、顔、顔、顔、顔、顔」などを取得する必要があります。

SNOWBALL や、機能していないように見えるいくつかの Porter Stemming PHP スクリプトなど、逆のことを行う効果のないプログラムに出くわしました。

私はこのスクリプトを書かなければならないのではないかと考え始めています。

0 投票する
3 に答える
17959 参照

java - Javaでのストップワードとステマー

類似性プログラムにストップ ワードを入れてから、ステマーを入れようと考えています (ポーター 1 または 2 を使用するかどうかは、実装が最も簡単かどうかによって異なります)。

ファイルからテキストを行全体として読み取り、それらを長い文字列として保存するので、2つの文字列を取得した場合、ex.

その弦を手に入れた今

ステミング: ステマー アルゴリズムを直接使用し、文字列として保存してから、プログラムにステマーを実装する前に行ったように、one.stem(); を実行するなどして、類似性に関する作業を続けることはできますか? ものの種類?

ストップ ワード: これはどのように機能しますか? 私はただ使っていますか?one.replaceall("私", ""); または、このプロセスに使用する特定の方法はありますか? 類似性アルゴリズムを使用して類似性を取得する前に、文字列の操作を続けて文字列を取得したいと考えています。ウィキは多くを語らない。

あなたが私を助けてくれることを願っています!ありがとう。

編集:学校関連のプロジェクトで、異なるアルゴリズム間の類似性に関する論文を書いているため、lucene や他のライブラリを使用することは許可されていないと思います。さらに、Lucene などのライブラリを使い始める前に、それがどのように機能するかを試して理解したいと思います。あまりご迷惑をお掛けしませんように(^^)

0 投票する
2 に答える
1751 参照

stemming - クロアチア語の単語ステミングアルゴリズムの実装はありますか?

クロアチア語の単語ステミングアルゴリズムの実装を探しています。理想的にはJavaですが、他の言語も受け入れます。

クロアチア語の検索アプリケーションを開発している英語を話す開発者のコ​​ミュニティはどこかにありますか?

ありがとう、

0 投票する
5 に答える
4354 参照

java - Java アラビア語ステマーが欲しい

アラビア語用の Java ステマーを探しています。「AraMorph」というライブラリを見つけましたが、その出力は制御不能で、不要な単語に形成されます。

アラビア語用の他のステマーはありますか?

0 投票する
1 に答える
735 参照

python - ランカスターまたはポーター

Stemming に最適なのはどれlancasterですか? porterポーターstemmerはステミングするには年を取りすぎていますか?

0 投票する
1 に答える
1846 参照

lucene - Solr では、なぜ 'built' は 'build' にステミングされず、'building' になるのですか?

私はこの投稿で2つのことを理解しようとしています:

  1. フィールド型定義にステマーが定義されているにもかかわらず、「built」が「build」にステミングされないのはなぜですか。ただし、「構築」は「構築」にステミングされています

  2. Luke を使用してインデックスを調べ、どの単語が何に語幹変換されたかを確認する方法。Luke では、「build」が「build」に語幹を変えられているのを見ることができませんでした。「ビルド」を検索することで「ビルド」を含む行を正常に取得できるため、Lucene がそれを抑止していることはわかっています。

このリンクは非常に役に立ちましたが、私の質問には答えませんでした。

参考までに、ここに schema.xml の部分を示します。

フィールド定義は

データ セットは複数のドキュメントで構成されています。1 つのドキュメントは features フィールドに「Building」があり、1 つのドキュメントは同じフィールドに「built」があり、1 つのドキュメントは features フィールドに「Built-in」があります。

ファイル: hd.xml:

ファイル ipod_video.xml:

ファイル sd500.xml:

Lukeall-3.3.0 を使用して、これは「features:build」で検索した結果です。(予想される 3 つのドキュメントではなく) 1 つが返されることに注意してください ここに画像の説明を入力 。その 1 つのドキュメント内でさえ、ステミングは表示されません。 ここに画像の説明を入力

また、Luke で「features:built」を検索すると、次の 2 つのドキュメントが返されます。 ここに画像の説明を入力

それらのいずれかを選択すると、元の「ビルド」が表示されますが、「ビルド」は表示されません。 ここに画像の説明を入力

0 投票する
1 に答える
3323 参照

javascript - Porters Stemming Algorithm Javascript, 操作方法

以下は、私がここから取った JavaScript の Porters Stemming Algorithm です: http://tartarus.org/~martin/PorterStemmer/js.txt

次のように呼び出すだけでアルゴリズムを使用できるようにしたいと思います。

この機能を以下のコードに組み込む方法について何か提案はありますか??

次のようなもの:

どんな提案でも感謝します....