pdf - Apache Tikaを使用してPDFの要素のスタイル情報を取得するには?

Question

PDFファイルからテキストを抽出するためにApache Tikaをいじっています。Apache Tika を使用して、フォントサイズ、テキストの色、特定のテキスト (いくつかの単語) がイタリック体、太字などであるかどうかなどのスタイル情報を取得する方法を知りたいですか?

この種の情報を取得することさえ可能ですか？

また、Apache Tika を使用してテーブル情報を取得することは可能でしょうか? テーブルの開始、最初の行の開始、最初のセルなどの情報。

score 3 · Accepted Answer

PDFTextStreamのような別の API を使用する方がおそらく便利です。Tika は pdf から生のテキスト情報を抽出しますが、PDFTextStreamは、文字エンコーディング、高さ、テキストの領域などの相関情報を含む構造化テキストを提供します。

3 に答える 3