pdf および doc ファイルで Hadoop ワードカウント プログラムを実行するにはどうすればよいですか? PDF ファイルで実行しようとすると、出力に奇妙な文字が表示されます。
1557 次
2 に答える
2
Hadoopはクリアテキストファイルの処理に限定されません。もちろん、バイナリファイルを処理できます。たとえば、SequenceFile
sはHadoopで最も一般的なバイナリ形式ですが、カスタムバイナリ形式が必要な場合は、独自のInputFormat
およびを実装することによっても実行できますRecordReader
。
Hadoopでの.docファイルの処理に関するこのすばらしい記事と、ニーズに合うはずの.docxおよび.pdfファイルの処理に関するこの記事を参照することをお勧めします。
于 2013-03-09T20:17:17.713 に答える
2
あなたが言及したファイル形式はバイナリであり、プレーンテキストに前処理しない限り、単語カウントへの入力としては適していません。最初に、他のツール/ライブラリを使用してプレーン テキスト形式に変換する必要があります。
おそらく、これを行うのに役立つ無料のコマンドライン ユーティリティがいくつかあります。
于 2013-03-08T20:43:29.270 に答える