hadoop - HadoopでPDFファイルのデータにアクセスして操作する方法は？

Question

hadoopを使用してPDFファイルを読みたいのですが、どうすればよいですか？私はhadoopがtxtファイルしか処理できないことを知っているだけなので、PDFファイルをtxtに解析する方法はありますか。

いくつか提案をください。

score 2 · Accepted Answer

簡単な方法は、PDFファイルを含むSequenceFileを作成することです。SequenceFileはバイナリファイル形式です。SequenceFileの各レコードをPDFにすることができます。これを行うには、 Writableから派生したクラスを作成します。このクラスには、PDFと必要なメタデータが含まれます。次に、PDFBoxなどの任意のJavaPDFライブラリを使用してPDFを操作できます。

score 0 · Accepted Answer

HadoopでのPDFファイルの処理は、 FileInputFormatクラスを拡張することで実行できます。それを拡張するクラスをWholeFileInputFormatとします。WholeFileInputFormatクラスでは、getRecordReader（）メソッドをオーバーライドします。これで、各pdfが個別の入力分割として受信されます。次に、これらの個々の分割を解析してテキストを抽出できます。このリンクは、FileInputFormatを拡張する方法を理解するための明確な例を示しています。

hadoop - HadoopでPDFファイルのデータにアクセスして操作する方法は？

2 に答える 2

Related

Reference