問題タブ [snowball]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 実際の単語を生成するステミングアルゴリズム
テキストの段落を取り、そこから「タグ」のリストを抽出する必要があります。これのほとんどは非常に簡単です。ただし、重複を避けるために、結果の単語リストをステミングするためのヘルプが必要です。例:コミュニティ/コミュニティ
私はPorterStemmerアルゴリズムの実装を使用しました(ちなみに私はPHPで書いています):
http://tartarus.org/~martin/PorterStemmer/php.txt
これはある程度までは機能しますが、「実際の」単語は返されません。上記の例は「commun」に由来しています。
「Snowball」を試しました(別のStack Overflowスレッド内で提案されています)。
http://snowball.tartarus.org/demo.php
私の例(コミュニティ/コミュニティ)では、Snowballは「communiti」に由来します。
質問
これを行う他のステミングアルゴリズムはありますか?他の誰かがこの問題を解決しましたか?
私の現在の考えは、ステミングアルゴリズムを使用して重複を回避し、遭遇した最短の単語を選択して実際に表示する単語にすることができるというものです。
lucene - Snowball と SpellChecker を使用する Lucene が奇妙な値を返す
Lucene.NET を使用して SpellChecker のセットアップを取得しようとしていますが、次のような状況以外はすべて正常に動作します。
インデックスにサテライトを含むテキストがあり、Snowball を使用して分析します。
次に、SpellChecker インデックスを作成し、そこから候補を取得します。「Satalite」を渡したときに返される提案は「satellit」です。
これは、Snowball が Satellite を satellit にステッピングし、SpellChecker がそれを提案として返しているためだと思います。
スペルチェッカーがそれをチェックできるように、ステム化されていない単語用の追加フィールドを作成する以外に、この2つを一緒に使用できるようにする方法はありますか?
java - ポーターステマーとウェカ
SnowBallパッケージで提供されているポーターStemmerでWekaを使用しています。Eclipse内でアプリケーションを実行すると、すべて正常に動作しますが、実行可能なjarとしてエクスポートするとすぐに(すべてのライブラリが含まれます)、wekaは次のように述べています。
どうすれば修正できますか?
full-text-search - Lucene 標準アナライザーと Snowball の比較
Lucene.Net を使い始めたばかりです。標準アナライザーを使用して 100,000 行のインデックスを作成し、いくつかのテスト クエリを実行したところ、元の用語が単数形の場合、複数形のクエリで結果が返されないことに気付きました。Snowball Analyzer がステミングのサポートを追加していることは理解しています。しかし、標準よりもスノーボールを使用するゴングに欠点があるかどうか疑問に思っていますか? それと一緒に行くことで何かを失うことはありますか?他に考慮すべきアナライザーはありますか?
java - Porter2ステマーのJava実装はありますか
Porter2ステマー(またはJavaで記述されたより優れたステマー)のJava実装を知っていますか?私はここにPorterのJavaバージョン(Porter2ではない)があることを知っています:
http://tartarus.org/~martin/PorterStemmer/java.txt
しかし、http: //tartarus.org/~martin/PorterStemmer/で、著者はPorterが少し古くなっていると述べており、Porter2の使用を推奨しています。
http://snowball.tartarus.org/algorithms/english/stemmer.html
しかし、私にとっての問題は、このPorter2が雪だるま式に書かれていることです(これまで聞いたことがないので、何も知りません)。私が正確に探しているのは、Javaバージョンです。
ありがとう。あなたの助けは彼に高く評価されます。
lucene - 一般的な英語の単語戦略を削除します
HTMLページから関連するキーワードを抽出したい。
私はすでにすべてのhtmlを削除し、テキストを単語に分割し、ステマーを使用して、ストップワードリストに表示されるすべての単語をluceneから削除しました。
しかし今でも、最も一般的な単語として、基本的な動詞や代名詞がたくさんあります。
luceneやsnowballなど、「I、is、go、goed、am、it、was、we、you、us、...」のようなものをすべて除外する方法や単語のセットはありますか?
java - JavaでLuceneスノーボールのコードを書く方法
こんにちは、これはバージョン2.9.2でのluceneテキスト検索用の私のコードです。lucene snowball 2.9.2のコードを記述して、「game」というテキストを検索すると、「game」を含むドキュメントも検索し、「games」も検索するようにします。このためのコードの書き方を教えてください。Luceneでテキストを検索できますが、luceneスノーボール2.9.2で検索したいです。
java - lucene で Snowball を使用するとエラーが発生する
lucene 3.5.0 を追加しました。スノーボール アナライザー用に別の jar を追加すると、次のエラーが発生します。
私のコードには以下が含まれます:
誰かがこれで私を助けることができますか?
elasticsearch - ElasticSearch:スノーボールアナライザーを使用したときの奇妙な検索動作
したがって、ElasticSearchインデックスが次のように定義されているとしましょう。
スノーボールアナライザーで「foo組織」を検索すると、両方のキーワードが期待どおりに一致します。
しかし、「組織」だけを検索すると、まったく結果が得られません。これは非常に奇妙なことです。
ただし、「バー」を検索すると、次のようになります。
「バー」と「組織」の違いは、「組織」は「オルガン」に由来し、「バー」はそれ自体に由来するということだと思います。しかし、2番目の検索がヒットするように適切な動作を取得するにはどうすればよいですか?
stemming - 多言語全文: どのステミング [Snowball] 言語を使用する必要がありますか?
すべての言語の全文検索をサポートしたい場合、どのステミング言語を使用する必要がありますか。私の知る限り、その言語での検索をサポートするには、その特定のステミング言語を使用してインデックスを作成する必要がありますが、私の検索プログラムには異なる言語が含まれている可能性があるため、これは不可能です
-- マノジ