32

私の目的は、その構造を解析しながら PDF ファイルからテキストと画像を抽出することです。構造を解析する範囲は完全ではありません。見出しと段落を識別できればよいだけです。

私はいくつかの異なることを試しましたが、どれもあまりうまくいきませんでした:

  • PDFをテキストに変換します。画像とドキュメントの構造が失われるため、うまくいきません。
  • PDF を HTML に変換します。これに役立つツールをいくつか見つけましたが、これまでのところ最高のツールは pdftohtml です。このツールはプレゼンテーションに関しては非常に優れていますが、HTML をうまく解析できませんでした。
  • PDF を XML に変換します。同上。

この問題に取り組む方法について何か提案はありますか?

4

7 に答える 7

4

iTextSharp やその他のオープン ソース ライブラリでは、次のようなアプローチを使用できます。

  • iTextSharpまたは同様のオープン ソース ツールを使用して PDF ファイルを読み取り、すべてのテキスト オブジェクトを配列に収集します (または、pdftohtmlなどのツールを使用して PDF を HTML に変換し、HTML を解析します)。
  • すべてのテキストオブジェクトを座標で並べ替えて、それらをすべてまとめます
  • 次に、オブジェクトを反復処理し、それらの間の距離をチェックして、2 つ以上のオブジェクトを 1 つの段落に結合できるかどうかを確認します。

または、これを正確に実行できるByteScout PDF Extractor SDKなどの商用ツールを使用することもできます。

  • テキストと画像を抽出し、テキストのレイアウトを分析する
  • テキスト オブジェクトが仮想レイアウト グリッド内の段落にマージまたは分割される XML または CSV
  • 特別な API を介してオブジェクトにアクセスし、元の PDF 内に格納されている方法に関係なく、「仮想」行および列インデックスを介して各オブジェクトをアドレス指定できるようにします。

免責事項: 私は ByteScout と提携しています

于 2015-02-16T10:07:19.830 に答える
0

マークされたコンテンツでない限り、PDF には構造がありません....さまざまなツールが何をしているのかを「推測」する必要があります。http://blog.idrsolutions.com/2010/09/the-easy-way-to-discover-if-a-pdf-file-contains-structured-content/で問題を説明する良いブログ投稿があります。

于 2009-06-02T07:11:14.693 に答える
0

上記の回答で述べたように、PDF は解析が容易ではありません。ただし、解析したいテキストに関する特定の追加情報がある場合は、それを引き出すことができます。

  1. 見出しがページの特定の部分に配置されている場合、PDF ファイルを解析し、解析された出力を座標で並べ替えることができます。

  2. 見出しと段落の間隔について事前に知っている場合は、この情報を利用してファイルを解析することもできます。

PDFBoxは、テキストと画像を抽出するために使用できる PDF 解析ツールであり、その上で解析用のカスタム ルールを定義できます。

ただし、PDF を解析するには、PDF ファイルの一般的な形式に関する予備知識が必要です。ドキュメントの解析に関する詳細については、次のブログ投稿 ドキュメントの解析 を参照してください。

免責事項: 私はブログ投稿の執筆に携わっていました。

于 2021-06-02T07:07:29.427 に答える
-10

iText api: PdfReader pr=new PdfReader("C:\test.pdf");

参考文献:PDFReader

于 2018-02-23T10:01:05.587 に答える