6

ステミングは、タグ付けシステムに必要なものです。私はデリシャスを使用しており、タグの管理とプルーニングを行う時間がありません。ブログにはもう少し注意を払っていますが、完璧ではありません。私は組み込みシステム用のソフトウェアを書いていますが、ステミングが含まれていればもっと機能的 (ユーザーに役立つ) でしょう。

例:
Parse
パーサー
解析

私がそれらを入れるシステムが何であれ、すべて同じことを意味するはずです。

どこかに BSD ライセンスのステマーがあるのが理想ですが、そうでない場合、一般的なアルゴリズムとテクニックを学ぶにはどこを参照すればよいでしょうか?

BSD ステマー以外に、オープン ソース ライセンスのステマーは他にどのようなものがありますか?

-アダム

4

4 に答える 4

5

Snowball Stemmer (C & Java) Python バインディングであるPyStemmerを使用しました

于 2009-02-27T15:07:14.687 に答える
2

ステミングのもう 1 つのオプションは、WordNet とその API の 1 つですPorter ステミング アルゴリズムの説明を含む、ステミングとレンマタイゼーションに関するいくつかの基本的な情報は、 Introduction to Information Retrievalでオンラインで見つけることができます。

于 2009-03-05T14:46:37.587 に答える
1

Luceneにはステマーが組み込まれていると思います (IIRC では、必要に応じて独自のものを使用できます)。

編集:確認したところ、Lucence は、私が知る限り、オープン ソースのステミング ライブラリであるSnowballサイトを参照しています。

于 2009-02-27T15:05:50.367 に答える