hadoop - Mahout は単語ステミングをサポートしていますか?

Question

私は mahout を使用して、LDA を使用してトピックを発見しています。データを準備するためにseq2sparse、ドキュメントをトークン化し、n-gram を作成するものを使用します。ただし、デフォルトでは単語ステミングはサポートされていません。Mahout には組み込みの単語ステミング機能があることを知りたいですか? そうでない場合は、独自に実装する必要がありますか? 推奨事項はありますか？

score 0 · Accepted Answer

seq2sparse次のコマンドを使用して、アナライザーを正確に指定できます。

$MAHOUT_HOME/bin/mahout seq2sparse
             ...
             --analyzerName (-a) analyzerName  The class name of the analyzer

アナライザーは Apache Lucene アナライザーであるため、例に従って次のように名前を正確にする必要があります。

org.apache.lucene.analysis.fr.FrenchAnalyzer

コマンドでできることの詳細については、公式ドキュメントを読むことをお勧めしますseqsparse。Luceneのドキュメントも読む必要があります。

PS: mahout と同じ lucene バージョンを使用する必要があります。

hadoop - Mahout は単語ステミングをサポートしていますか?

1 に答える 1

Related

Reference