hadoopを使用してPDFファイルを読みたいのですが、どうすればよいですか?私はhadoopがtxtファイルしか処理できないことを知っているだけなので、PDFファイルをtxtに解析する方法はありますか。
いくつか提案をください。
hadoopを使用してPDFファイルを読みたいのですが、どうすればよいですか?私はhadoopがtxtファイルしか処理できないことを知っているだけなので、PDFファイルをtxtに解析する方法はありますか。
いくつか提案をください。
簡単な方法は、PDFファイルを含むSequenceFileを作成することです。SequenceFileはバイナリファイル形式です。SequenceFileの各レコードをPDFにすることができます。これを行うには、 Writableから派生したクラスを作成します。このクラスには、PDFと必要なメタデータが含まれます。次に、PDFBoxなどの任意のJavaPDFライブラリを使用してPDFを操作できます。
HadoopでのPDFファイルの処理は、 FileInputFormatクラスを拡張することで実行できます。それを拡張するクラスをWholeFileInputFormatとします。WholeFileInputFormatクラスでは、getRecordReader()メソッドをオーバーライドします。これで、各pdfが個別の入力分割として受信されます。次に、これらの個々の分割を解析してテキストを抽出できます。このリンクは、FileInputFormatを拡張する方法を理解するための明確な例を示しています。