0

hadoopを使用してPDFファイルを読みたいのですが、どうすればよいですか?私はhadoopがtxtファイルしか処理できないことを知っているだけなので、PDFファイルをtxtに解析する方法はありますか。

いくつか提案をください。

4

2 に答える 2

2

簡単な方法は、PDFファイルを含むSequenceFileを作成することです。SequenceFileはバイナリファイル形式です。SequenceFileの各レコードをPDFにすることができます。これを行うには、 Writableから派生したクラスを作成します。このクラスには、PDFと必要なメタデータが含まれます。次に、PDFBoxなどの任意のJavaPDFライブラリを使用してPDFを操作できます。

于 2012-02-15T18:19:02.507 に答える
0

HadoopでのPDFファイルの処理は、 FileInputFormatクラスを拡張することで実行できます。それを拡張するクラスをWholeFileInputFormatとします。WholeFileInputFormatクラスでは、getRecordReader()メソッドをオーバーライドします。これで、各pdfが個別の入力分割として受信されます。次に、これらの個々の分割を解析してテキストを抽出できます。このリンクは、FileInputFormatを拡張する方法を理解するための明確な例を示しています。

于 2012-02-25T11:38:05.827 に答える