PDFファイルからテキストを抽出するためにApache Tikaをいじっています。Apache Tika を使用して、フォント サイズ、テキストの色、特定のテキスト (いくつかの単語) がイタリック体、太字などであるかどうかなどのスタイル情報を取得する方法を知りたいですか?
この種の情報を取得することさえ可能ですか?
また、Apache Tika を使用してテーブル情報を取得することは可能でしょうか? テーブルの開始、最初の行の開始、最初のセルなどの情報。
PDFファイルからテキストを抽出するためにApache Tikaをいじっています。Apache Tika を使用して、フォント サイズ、テキストの色、特定のテキスト (いくつかの単語) がイタリック体、太字などであるかどうかなどのスタイル情報を取得する方法を知りたいですか?
この種の情報を取得することさえ可能ですか?
また、Apache Tika を使用してテーブル情報を取得することは可能でしょうか? テーブルの開始、最初の行の開始、最初のセルなどの情報。
PDFTextStreamのような別の API を使用する方がおそらく便利です。Tika は pdf から生のテキスト情報を抽出しますが、PDFTextStreamは、文字エンコーディング、高さ、テキストの領域などの相関情報を含む構造化テキストを提供します。