1

mahout でツイートと facebook データの感情分析を行うために、ナイーブ ベイズ アルゴリズムを実装しようとしています。これらのツイートと Facebook のデータをテキスト ファイルに保存しています。コマンドを使用して、これらのファイルをシーケンスファイルに変換しています

bin/mahout seqdirectory -i /user/hadoopUser/sample/input -o /user/hadoopUser/sample/seqoutput

次に、コマンドを使用して mahout に入力を与えるために、シーケンス ファイルをベクターに変換しようとしました

bin/mahout seq2sparse -i /user/hadoopUser/sample/seqoutput -o /user/hadoopUser/vectoroutput -ow -a org.apache.lucene.analysis.WhitespaceAnalyzer -chunk 200 -wt tfidf -s 5 -md 3 -x 90 -ng 2 -ml 50 -seq

これはドキュメント全体をベクトルに変換していますが、ドキュメントを分類したくないため、各文を全体としてではなくベクトルに変換したいと考えています。ドキュメント内のコメントを分類したい。誰でもこの問題を解決するのを手伝ってもらえますか?

4

2 に答える 2