問題タブ [stemming]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
search - 単数形/複数形の検索とステミング
単数-複数のキーワード検索の簡単な解決策を見つけています。ステミングについて聞いたことがありますが、すべての機能を使用するのではなく、複数形/単数形の変換のみを使用したいと考えています。言語はオランダ語です。以前にhttp://www.snowball.tartarus.orgを見たことがあります。単数または複数の関連検索の簡単な解決策を知っている人はいますか? 前もって感謝します。
php - 実際の単語を生成するステミングアルゴリズム
テキストの段落を取り、そこから「タグ」のリストを抽出する必要があります。これのほとんどは非常に簡単です。ただし、重複を避けるために、結果の単語リストをステミングするためのヘルプが必要です。例:コミュニティ/コミュニティ
私はPorterStemmerアルゴリズムの実装を使用しました(ちなみに私はPHPで書いています):
http://tartarus.org/~martin/PorterStemmer/php.txt
これはある程度までは機能しますが、「実際の」単語は返されません。上記の例は「commun」に由来しています。
「Snowball」を試しました(別のStack Overflowスレッド内で提案されています)。
http://snowball.tartarus.org/demo.php
私の例(コミュニティ/コミュニティ)では、Snowballは「communiti」に由来します。
質問
これを行う他のステミングアルゴリズムはありますか?他の誰かがこの問題を解決しましたか?
私の現在の考えは、ステミングアルゴリズムを使用して重複を回避し、遭遇した最短の単語を選択して実際に表示する単語にすることができるというものです。
comparison - 最良の「ターンキー」ステミング アルゴリズムは何ですか?
私が取り組んでいるプロジェクトには、優れたステミング アルゴリズムが必要です。Porter Stemmer を見るように勧められました。Porter ステマーのページを調べたところ、"Snowball" ステマーが優先され、現在は廃止されていることがわかりました。
優れたステマーが必要ですが、独自のステマーの実装 (または最適化) にかなりの時間を費やすことはできません。自由に入手できる「すぐに使える」最高のステマーは何ですか? リーズナブルな価格で利用できる無料ではないステマーはありますか? それとも、Snowball ステマーが最善の策でしょうか?
algorithm - ステミング - コード例またはオープン ソース プロジェクト?
ステミングは、タグ付けシステムに必要なものです。私はデリシャスを使用しており、タグの管理とプルーニングを行う時間がありません。ブログにはもう少し注意を払っていますが、完璧ではありません。私は組み込みシステム用のソフトウェアを書いていますが、ステミングが含まれていればもっと機能的 (ユーザーに役立つ) でしょう。
例:
Parse
パーサー
解析
私がそれらを入れるシステムが何であれ、すべて同じことを意味するはずです。
どこかに BSD ライセンスのステマーがあるのが理想ですが、そうでない場合、一般的なアルゴリズムとテクニックを学ぶにはどこを参照すればよいでしょうか?
BSD ステマー以外に、オープン ソース ライセンスのステマーは他にどのようなものがありますか?
-アダム
lucene - Lucene ヘブライ語アナライザー
存在するかどうか知っている人はいますか?
私はこれを何ヶ月もグーグルで調べてきました...
ありがとう
stemming - なぜ Porter Stemmer は再びステミングできる文字列を生成するのですか?
幹('りんご')='りんご'
幹('りんご')='アプリ'
幹('アプリ')='アプリ'
これはステミング アルゴリズムの欠陥ではありませんか?
(これはPorter Stemming Algorithmを使用しています)
language-agnostic - 英単語の複数形をプログラムで検出し、単数形を導出できますか?
複数形であると仮定する (英語の) 単語が与えられた場合、単数形を導出することは可能ですか? 可能であれば、ルックアップ/辞書テーブルを避けたいです。
いくつかの例:
language でのライブラリの提案はx
、それらがオープンソースである限り問題ありません (つまり、誰かがそれらを調べて language でそれを行う方法を決定できるようにするためy
) 。
ruby - Ruby Lingua::Stem 代替
ロシア語を扱える Perl Lingua::Stem モジュールの無料の代替品はありますか? ありがとう
lucene.net - Lucene .Net での検索
インデックス作成には Lucene .Net を使用し、インデックス作成時には StandardAnalyzer を使用しました。今、私は「添付」と言って検索したい。ドキュメントに「添付」があります。「添付」という単語のヒットを成功させる方法。できるだけ早く私を助けてください。