問題タブ [porter-stemmer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
elasticsearch - ElasticSearch および Porterstem アナライザー
Elasticsearch を使用してサイトの検索機能を提供することを検討しています。
私はそれを試してきましたが、Porterstem アナライザーを有効にすることができません (そのため、戦いの検索は戦いと戦いに一致します)。
これが私の入力の概要です。
ただし、「戦い」の検索を実行すると、最初のエントリ (正確な用語を含むエントリ) のみに一致します。
正しい設定がセットアップされているように見えますが、機能していないようです。
誰かがこの機能を起動して実行し、私を正しい方向に向けることができますか?
java - Luceneで英語の単語をステミング
Javaアプリケーションでいくつかの英語のテキストを処理しているので、それらをステム処理する必要があります。たとえば、「アメニティ/アメニティ」というテキストから、「amenit」を取得する必要があります。
関数は次のようになります。
Lucene Analyzerを見つけましたが、必要なものには複雑すぎるように見えます。 http://lucene.apache.org/java/2_2_0/api/org/apache/lucene/analysis/PorterStemFilter.html
アナライザーを構築せずに単語を語幹にするためにそれを使用する方法はありますか?アナライザーのビジネスをすべて理解しているわけではありません...
編集:私は実際にステミング+レンマ化が必要です。Luceneはこれを実行できますか?
mysql - porter または porter 2 ステミング アルゴリズム用の MySQL ルーチン
MySQL ルーチン (ユーザー定義関数) として記述された Porter または Porter 2 ステミング アルゴリズムのポートを探しています。誰も見たことがありますか?
どうもありがとう!
php - PHPで単語の派生語をすべて取得するツールはありますか?
「顔」を入力して、「顔、顔、顔、顔、顔、顔」などを取得する必要があります。
SNOWBALL や、機能していないように見えるいくつかの Porter Stemming PHP スクリプトなど、逆のことを行う効果のないプログラムに出くわしました。
私はこのスクリプトを書かなければならないのではないかと考え始めています。
java - Javaでのストップワードとステマー
類似性プログラムにストップ ワードを入れてから、ステマーを入れようと考えています (ポーター 1 または 2 を使用するかどうかは、実装が最も簡単かどうかによって異なります)。
ファイルからテキストを行全体として読み取り、それらを長い文字列として保存するので、2つの文字列を取得した場合、ex.
その弦を手に入れた今
ステミング: ステマー アルゴリズムを直接使用し、文字列として保存してから、プログラムにステマーを実装する前に行ったように、one.stem(); を実行するなどして、類似性に関する作業を続けることはできますか? ものの種類?
ストップ ワード: これはどのように機能しますか? 私はただ使っていますか?one.replaceall("私", ""); または、このプロセスに使用する特定の方法はありますか? 類似性アルゴリズムを使用して類似性を取得する前に、文字列の操作を続けて文字列を取得したいと考えています。ウィキは多くを語らない。
あなたが私を助けてくれることを願っています!ありがとう。
編集:学校関連のプロジェクトで、異なるアルゴリズム間の類似性に関する論文を書いているため、lucene や他のライブラリを使用することは許可されていないと思います。さらに、Lucene などのライブラリを使い始める前に、それがどのように機能するかを試して理解したいと思います。あまりご迷惑をお掛けしませんように(^^)
stemming - クロアチア語の単語ステミングアルゴリズムの実装はありますか?
クロアチア語の単語ステミングアルゴリズムの実装を探しています。理想的にはJavaですが、他の言語も受け入れます。
クロアチア語の検索アプリケーションを開発している英語を話す開発者のコミュニティはどこかにありますか?
ありがとう、
java - Java アラビア語ステマーが欲しい
アラビア語用の Java ステマーを探しています。「AraMorph」というライブラリを見つけましたが、その出力は制御不能で、不要な単語に形成されます。
アラビア語用の他のステマーはありますか?
python - ランカスターまたはポーター
Stemming に最適なのはどれlancaster
ですか? porter
ポーターstemmer
はステミングするには年を取りすぎていますか?
lucene - Solr では、なぜ 'built' は 'build' にステミングされず、'building' になるのですか?
私はこの投稿で2つのことを理解しようとしています:
フィールド型定義にステマーが定義されているにもかかわらず、「built」が「build」にステミングされないのはなぜですか。ただし、「構築」は「構築」にステミングされています
Luke を使用してインデックスを調べ、どの単語が何に語幹変換されたかを確認する方法。Luke では、「build」が「build」に語幹を変えられているのを見ることができませんでした。「ビルド」を検索することで「ビルド」を含む行を正常に取得できるため、Lucene がそれを抑止していることはわかっています。
このリンクは非常に役に立ちましたが、私の質問には答えませんでした。
参考までに、ここに schema.xml の部分を示します。
フィールド定義は
データ セットは複数のドキュメントで構成されています。1 つのドキュメントは features フィールドに「Building」があり、1 つのドキュメントは同じフィールドに「built」があり、1 つのドキュメントは features フィールドに「Built-in」があります。
ファイル: hd.xml:
ファイル ipod_video.xml:
ファイル sd500.xml:
Lukeall-3.3.0 を使用して、これは「features:build」で検索した結果です。(予想される 3 つのドキュメントではなく) 1 つが返されることに注意してください
。その 1 つのドキュメント内でさえ、ステミングは表示されません。
また、Luke で「features:built」を検索すると、次の 2 つのドキュメントが返されます。
それらのいずれかを選択すると、元の「ビルド」が表示されますが、「ビルド」は表示されません。
javascript - Porters Stemming Algorithm Javascript, 操作方法
以下は、私がここから取った JavaScript の Porters Stemming Algorithm です: http://tartarus.org/~martin/PorterStemmer/js.txt
次のように呼び出すだけでアルゴリズムを使用できるようにしたいと思います。
この機能を以下のコードに組み込む方法について何か提案はありますか??
次のようなもの:
どんな提案でも感謝します....