私は mahout を使用して、LDA を使用してトピックを発見しています。データを準備するためにseq2sparse
、ドキュメントをトークン化し、n-gram を作成するものを使用します。ただし、デフォルトでは単語ステミングはサポートされていません。Mahout には組み込みの単語ステミング機能があることを知りたいですか? そうでない場合は、独自に実装する必要がありますか? 推奨事項はありますか?
1 に答える
0
seq2sparse
次のコマンドを使用して、アナライザーを正確に指定できます。
$MAHOUT_HOME/bin/mahout seq2sparse
...
--analyzerName (-a) analyzerName The class name of the analyzer
アナライザーは Apache Lucene アナライザーであるため、例に従って次のように名前を正確にする必要があります。
org.apache.lucene.analysis.fr.FrenchAnalyzer
コマンドでできることの詳細については、公式ドキュメントを読むことをお勧めしますseqsparse
。Luceneのドキュメントも読む必要があります。
PS: mahout と同じ lucene バージョンを使用する必要があります。
于 2015-05-06T16:57:15.207 に答える