mahout でツイートと facebook データの感情分析を行うために、ナイーブ ベイズ アルゴリズムを実装しようとしています。これらのツイートと Facebook のデータをテキスト ファイルに保存しています。コマンドを使用して、これらのファイルをシーケンスファイルに変換しています
bin/mahout seqdirectory -i /user/hadoopUser/sample/input -o /user/hadoopUser/sample/seqoutput
次に、コマンドを使用して mahout に入力を与えるために、シーケンス ファイルをベクターに変換しようとしました
bin/mahout seq2sparse -i /user/hadoopUser/sample/seqoutput -o /user/hadoopUser/vectoroutput -ow -a org.apache.lucene.analysis.WhitespaceAnalyzer -chunk 200 -wt tfidf -s 5 -md 3 -x 90 -ng 2 -ml 50 -seq
これはドキュメント全体をベクトルに変換していますが、ドキュメントを分類したくないため、各文を全体としてではなくベクトルに変換したいと考えています。ドキュメント内のコメントを分類したい。誰でもこの問題を解決するのを手伝ってもらえますか?