pdf - その構造を追跡しながらPDFファイルからデータを抽出する方法は?

Question

私の目的は、その構造を解析しながら PDF ファイルからテキストと画像を抽出することです。構造を解析する範囲は完全ではありません。見出しと段落を識別できればよいだけです。

私はいくつかの異なることを試しましたが、どれもあまりうまくいきませんでした:

PDFをテキストに変換します。画像とドキュメントの構造が失われるため、うまくいきません。
PDF を HTML に変換します。これに役立つツールをいくつか見つけましたが、これまでのところ最高のツールは pdftohtml です。このツールはプレゼンテーションに関しては非常に優れていますが、HTML をうまく解析できませんでした。
PDF を XML に変換します。同上。

この問題に取り組む方法について何か提案はありますか?

score 4 · Accepted Answer

iTextSharp やその他のオープンソースライブラリでは、次のようなアプローチを使用できます。

iTextSharpまたは同様のオープンソースツールを使用して PDF ファイルを読み取り、すべてのテキストオブジェクトを配列に収集します (または、pdftohtmlなどのツールを使用して PDF を HTML に変換し、HTML を解析します)。
すべてのテキストオブジェクトを座標で並べ替えて、それらをすべてまとめます
次に、オブジェクトを反復処理し、それらの間の距離をチェックして、2 つ以上のオブジェクトを 1 つの段落に結合できるかどうかを確認します。

または、これを正確に実行できるByteScout PDF Extractor SDKなどの商用ツールを使用することもできます。

テキストと画像を抽出し、テキストのレイアウトを分析する
テキストオブジェクトが仮想レイアウトグリッド内の段落にマージまたは分割される XML または CSV
特別な API を介してオブジェクトにアクセスし、元の PDF 内に格納されている方法に関係なく、「仮想」行および列インデックスを介して各オブジェクトをアドレス指定できるようにします。

免責事項: 私は ByteScout と提携しています

score 0 · Accepted Answer

マークされたコンテンツでない限り、PDF には構造がありません....さまざまなツールが何をしているのかを「推測」する必要があります。http://blog.idrsolutions.com/2010/09/the-easy-way-to-discover-if-a-pdf-file-contains-structured-content/で問題を説明する良いブログ投稿があります。

score 0 · Accepted Answer

上記の回答で述べたように、PDF は解析が容易ではありません。ただし、解析したいテキストに関する特定の追加情報がある場合は、それを引き出すことができます。

PDFBoxは、テキストと画像を抽出するために使用できる PDF 解析ツールであり、その上で解析用のカスタムルールを定義できます。

ただし、PDF を解析するには、PDF ファイルの一般的な形式に関する予備知識が必要です。ドキュメントの解析に関する詳細については、次のブログ投稿ドキュメントの解析を参照してください。

免責事項: 私はブログ投稿の執筆に携わっていました。

score -10 · Accepted Answer

-10

iText api: PdfReader pr=new PdfReader("C:\test.pdf");

参考文献：PDFReader

于 2018-02-23T10:01:05.587 に答える

7 に答える 7