parsing - Apache Lucene を使用して大きな PDF ファイルを解析する

Question

大きなpdfファイルのセットを検索/解析する最良の方法を見つけようとしています。現在、PDFBox を使用して PDF ファイルをテキストファイルに変換しています。次に、Lucene を使用してこれらのテキストファイルのインデックスを作成し、情報を検索しています。このアプローチを使用すると、いくつかの問題に直面しています。(私はこれらの技術を非常に基本的なレベルで使用して、何ができるかを確認していることに注意してください) .

すべての列の総計を示す PDF ファイルの次の行を考えてみましょう。各列には値のペアが含まれており、その合計は次のように表示されます。

    Grand Total  $3,148.06 $484.80 $13.07 $8.90 $0.00 $69.90 $0.00 $0.00
                 $10.00    $5.15   $25.60 $0.00 $2.69 $0.00  $0.00 $0.00 $3,768.17

PDFBoxのTextStripperを使用してpdfファイルをテキストファイルに変換すると、pdfファイルの上記の行がテキストファイルの次のテキストに変換されます。

    58.20$3,148.06 $484.80 $13.07 $0.00 $0.00 $0.00Grand Total $8.90 $69.90$10.00 $5.15 $25.60 $0.00 $2.69 $0.00 $0.00 $0.00 $3,768.17

上のテキストファイルからわかるように、データは総計ラベルの周りに散らばっています。そのため、PDF ファイルのインデントがテキストファイルに保持されないため、総計情報を取得することが難しくなります。

したがって、テキストファイルがPDFファイルのインデント/フォーマットを維持するように、PDFファイルをテキストファイルに変換する方法があるかどうかを知りたいです。また、私の目的を達成するために Lucene を使用することをお勧めしますか、それとも大きな PDF ファイルのセットから情報を取得するためのより簡単で高速な方法があるかどうかも知りたいです。

score 0 · Accepted Answer

ティカを試すことができます。(一般に、PDF から Lucene にデータを抽出するときは、Tika を使用します。)

もっと簡単な方法はありますか？Solr はTika と強力に統合されているため、PDF ドキュメントのインデックス作成が非常に簡単になります。(Solr は Lucene のラッパーです。)

parsing - Apache Lucene を使用して大きな PDF ファイルを解析する

1 に答える 1

Related

Reference