2

pdf および doc ファイルで Hadoop ワードカウント プログラムを実行するにはどうすればよいですか? PDF ファイルで実行しようとすると、出力に奇妙な文字が表示されます。

4

2 に答える 2

2

Hadoopはクリアテキストファイルの処理に限定されません。もちろん、バイナリファイルを処理できます。たとえば、SequenceFilesはHadoopで最も一般的なバイナリ形式ですが、カスタムバイナリ形式が必要な場合は、独自のInputFormatおよびを実装することによっても実行できますRecordReader

Hadoopでの.docファイルの処理に関するこのすばらしい記事と、ニーズに合うはずの.docxおよび.pdfファイルの処理に関するこの記事を参照することをお勧めします。

于 2013-03-09T20:17:17.713 に答える
2

あなたが言及したファイル形式はバイナリであり、プレーンテキストに前処理しない限り、単語カウントへの入力としては適していません。最初に、他のツール/ライブラリを使用してプレーン テキスト形式に変換する必要があります。

おそらく、これを行うのに役立つ無料のコマンドライン ユーティリティがいくつかあります。

于 2013-03-08T20:43:29.270 に答える