Tika* を使用して PDF ファイルを解析しています。ドキュメントのテキストを取得するのに問題はありませんが、テキストを抽出する方法がわかりません:
- 下線付き
- ハイライト
- 消された
Adobe Writer にはさまざまなテキスト編集オプションがありますが、それらがどこに「隠されている」のかわかりません。
これらのメタデータ情報を抽出するソリューションはありますか? (下線、ハイライト ...)
Tika がこのデータを抽出できるかどうか知っていますか?
*http://tika.apache.org/