0

複数の PDF ドキュメントを 1 つの PDF ドキュメントにマージする必要があります。これに加えて、TOC を生成する必要があります。元のドキュメントには、特定のスタイル (H1 など) のテキストが含まれます。この特別なテキストは TOC の一部になります。

複数のPDFファイルをマージするためにiTextを使用しました。スタイル H1 を持つすべてのコンテンツを見つけるためにドキュメントを解析する際の例/API を見つけることができません。TOC の生成は次の課題です。

4

1 に答える 1

0

あなたはそうしない。PDFにはスタイルがありません。それらには「現在のグラフィック状態」があり、これには次のものが含まれます。

  • 現在の変換行列(CTM)。
  • ストロークと塗りつぶしの色
  • クリッピングパス
  • フォントサイズ
  • 他のテキスト状態のもののゴブ(文字間隔、単語間隔、先頭、テキストレンダリングモード...)
    • CTMと組み合わされた個別のテキスト変換マトリックスを含みます。

したがって、最初にこれらすべてを追跡する必要があります(iTextはほとんどの場合これを実行できます)。次に、「H1」テキストの大きさを決定し、CTM、テキストマトリックス、およびフォントサイズを考慮して、そのサイズの画面サイズにあるすべてのテキストをラッチする必要があります(iTextが再び行います、IIRC )。

そして、あなたのような人々の生活をよりエキサイティングにするために、あなたが見ているテキストがまったくテキストではない可能性は十分にあります。パスまたはビットマップの可能性があります...その時点でOCRが必要ですが、OCRを使用するとサイズ情報があまり得られないと思います。

特定のテキストの最終的なサイズ(およびそれが最後の部分の一部であるかどうか)を決定するを記述し、TextRenderListener小さすぎるものをすべて除外する必要があります。次に、見つけたテキストに基づいて目次を作成します。

于 2011-04-15T00:13:50.563 に答える