テキストの段落を取り、そこから「タグ」のリストを抽出する必要があります。これのほとんどは非常に簡単です。ただし、重複を避けるために、結果の単語リストをステミングするためのヘルプが必要です。例:コミュニティ/コミュニティ
私はPorterStemmerアルゴリズムの実装を使用しました(ちなみに私はPHPで書いています):
http://tartarus.org/~martin/PorterStemmer/php.txt
これはある程度までは機能しますが、「実際の」単語は返されません。上記の例は「commun」に由来しています。
「Snowball」を試しました(別のStack Overflowスレッド内で提案されています)。
http://snowball.tartarus.org/demo.php
私の例(コミュニティ/コミュニティ)では、Snowballは「communiti」に由来します。
質問
これを行う他のステミングアルゴリズムはありますか?他の誰かがこの問題を解決しましたか?
私の現在の考えは、ステミングアルゴリズムを使用して重複を回避し、遭遇した最短の単語を選択して実際に表示する単語にすることができるというものです。