java - iTextライブラリを使用してpdfファイルの特定の段落コンテンツを取得するには?

Question

iText ライブラリを使用して、pdf ファイル内の特定の段落の段落数またはコンテンツを取得する方法はありますか? 新しいpdfファイルを作成するコードでParagraph、Chunkなどのクラスを見ましたが、ファイルの読み取りでこれらのクラスを取得する方法が見つかりません。すべてのアイデアが高く評価されています

score 3 · Accepted Answer

あなたが話しているPDFはタグ付きPDFですか？そうでない場合は、PDF について間違った仮定をしているということです。PDF では、コンテンツはページに描画されます。例: iText PdfPTable は、テキストのスニペットをキャンバスに描画するテキスト状態演算子と、パスと形状を描画するグラフィック状態演算子に変換されます。PDF がタグ付けされていない場合、線は表の境界線であることを認識しません。単語は、それがどのセルに属しているかわかりません。

同じことが段落にも当てはまります。テキストのスニペットは、それが文に属しているのか、段落に属しているのか、タイトル行に属しているのかを知りません...

PDF の性質上、探しているものが (iText やその他のソフトウェア製品を使用して) 不可能な場合や、すべてのテキスト状態演算子とコンテンツのセマンティクスを調べるヒューリスティック (人工知能) が必要な場合があります。人間がテキストを解釈する方法を模倣する結果。

PDF が正しくタグ付けされていれば、非常に簡単に達成できます。ParseTaggedPdfの例を参照してください。

java - iTextライブラリを使用してpdfファイルの特定の段落コンテンツを取得するには?

1 に答える 1

Related

Reference