複数の PDF ドキュメントを 1 つの PDF ドキュメントにマージする必要があります。これに加えて、TOC を生成する必要があります。元のドキュメントには、特定のスタイル (H1 など) のテキストが含まれます。この特別なテキストは TOC の一部になります。
複数のPDFファイルをマージするためにiTextを使用しました。スタイル H1 を持つすべてのコンテンツを見つけるためにドキュメントを解析する際の例/API を見つけることができません。TOC の生成は次の課題です。
複数の PDF ドキュメントを 1 つの PDF ドキュメントにマージする必要があります。これに加えて、TOC を生成する必要があります。元のドキュメントには、特定のスタイル (H1 など) のテキストが含まれます。この特別なテキストは TOC の一部になります。
複数のPDFファイルをマージするためにiTextを使用しました。スタイル H1 を持つすべてのコンテンツを見つけるためにドキュメントを解析する際の例/API を見つけることができません。TOC の生成は次の課題です。
あなたはそうしない。PDFにはスタイルがありません。それらには「現在のグラフィック状態」があり、これには次のものが含まれます。
したがって、最初にこれらすべてを追跡する必要があります(iTextはほとんどの場合これを実行できます)。次に、「H1」テキストの大きさを決定し、CTM、テキストマトリックス、およびフォントサイズを考慮して、そのサイズの画面サイズにあるすべてのテキストをラッチする必要があります(iTextが再び行います、IIRC )。
そして、あなたのような人々の生活をよりエキサイティングにするために、あなたが見ているテキストがまったくテキストではない可能性は十分にあります。パスまたはビットマップの可能性があります...その時点でOCRが必要ですが、OCRを使用するとサイズ情報があまり得られないと思います。
特定のテキストの最終的なサイズ(およびそれが最後の部分の一部であるかどうか)を決定するを記述し、TextRenderListener
小さすぎるものをすべて除外する必要があります。次に、見つけたテキストに基づいて目次を作成します。