java - pdf および doc ファイルで Hadoop ワードカウントプログラムを実行するにはどうすればよいですか?

Question

pdf および doc ファイルで Hadoop ワードカウントプログラムを実行するにはどうすればよいですか? PDF ファイルで実行しようとすると、出力に奇妙な文字が表示されます。

score 2 · Accepted Answer

Hadoopはクリアテキストファイルの処理に限定されません。もちろん、バイナリファイルを処理できます。たとえば、SequenceFilesはHadoopで最も一般的なバイナリ形式ですが、カスタムバイナリ形式が必要な場合は、独自のInputFormatおよびを実装することによっても実行できますRecordReader。

Hadoopでの.docファイルの処理に関するこのすばらしい記事と、ニーズに合うはずの.docxおよび.pdfファイルの処理に関するこの記事を参照することをお勧めします。

score 2 · Accepted Answer

あなたが言及したファイル形式はバイナリであり、プレーンテキストに前処理しない限り、単語カウントへの入力としては適していません。最初に、他のツール/ライブラリを使用してプレーンテキスト形式に変換する必要があります。

おそらく、これを行うのに役立つ無料のコマンドラインユーティリティがいくつかあります。

java - pdf および doc ファイルで Hadoop ワードカウント プログラムを実行するにはどうすればよいですか?

2 に答える 2

Related

Reference

java - pdf および doc ファイルで Hadoop ワードカウントプログラムを実行するにはどうすればよいですか?