私はこれについてウェブ上で多くの検索を行いましたが、それはいくらか一般的でなければならないと感じていますが、何も見つかりませんでした. 過去に、Mahout の seqdirectory コマンドを使用して、テキスト ファイル (各ファイルは個別のドキュメント) を含むフォルダーを変換したことがあります。しかし、この場合、非常に多くのドキュメント (100,000 単位) があるため、各行がドキュメントである 1 つの非常に大きなテキスト ファイルが作成されます。この大きなファイルを SequenceFile 形式に変換して、Mahout が各行を個別のドキュメントと見なす必要があることを理解するにはどうすればよいですか? 助けてくれてありがとう。
質問する
4172 次
1 に答える
1
ええ、これを行う方法は明らかでも直感的でもありませんが、(幸運なことに:P)ここでスタック内でその正確な質問に何度か答えました。見てください;)
于 2012-10-31T09:20:01.437 に答える