3

Tika* を使用して PDF ファイルを解析しています。ドキュメントのテキストを取得するのに問題はありませんが、テキストを抽出する方法がわかりません:

  • 下線付き
  • ハイライト
  • 消された

Adobe Writer にはさまざまなテキスト編集オプションがありますが、それらがどこに「隠されている」のかわかりません。

これらのメタデータ情報を抽出するソリューションはありますか? (下線、ハイライト ...)

Tika がこのデータを抽出できるかどうか知っていますか?

*http://tika.apache.org/

4

1 に答える 1