0

大きなpdfファイルのセットを検索/解析する最良の方法を見つけようとしています。現在、PDFBox を使用して PDF ファイルをテキスト ファイルに変換しています。次に、Lucene を使用してこれらのテキスト ファイルのインデックスを作成し、情報を検索しています。このアプローチを使用すると、いくつかの問題に直面しています。(私はこれらの技術を非常に基本的なレベルで使用して、何ができるかを確認していることに注意してください) .

すべての列の総計を示す PDF ファイルの次の行を考えてみましょう。各列には値のペアが含まれており、その合計は次のように表示されます。

    Grand Total  $3,148.06 $484.80 $13.07 $8.90 $0.00 $69.90 $0.00 $0.00
                 $10.00    $5.15   $25.60 $0.00 $2.69 $0.00  $0.00 $0.00 $3,768.17

PDFBoxのTextStripperを使用してpdfファイルをテキストファイルに変換すると、pdfファイルの上記の行がテキストファイルの次のテキストに変換されます。

    58.20$3,148.06 $484.80 $13.07 $0.00 $0.00 $0.00Grand Total $8.90 $69.90$10.00 $5.15 $25.60 $0.00 $2.69 $0.00 $0.00 $0.00 $3,768.17

上のテキスト ファイルからわかるように、データは総計ラベルの周りに散らばっています。そのため、PDF ファイルのインデントがテキスト ファイルに保持されないため、総計情報を取得することが難しくなります。

したがって、テキストファイルがPDFファイルのインデント/フォーマットを維持するように、PDFファイルをテキストファイルに変換する方法があるかどうかを知りたいです。また、私の目的を達成するために Lucene を使用することをお勧めしますか、それとも大きな PDF ファイルのセットから情報を取得するためのより簡単で高速な方法があるかどうかも知りたいです。

4

1 に答える 1

0

ティカを試すことができます。(一般に、PDF から Lucene にデータを抽出するときは、Tika を使用します。)

もっと簡単な方法はありますか?Solr はTika と強力に統合されているため、PDF ドキュメントのインデックス作成が非常に簡単になります。(Solr は Lucene のラッパーです。)

于 2011-11-17T17:00:01.790 に答える