pdf - Tika - PDF テキストからテキストを抽出する方法: 下線、強調表示、取り消し線

翻译自：https://stackoverflow.com/questions/12341514 2012-09-09T18:01:14.030

1811 次

3

Tika* を使用して PDF ファイルを解析しています。ドキュメントのテキストを取得するのに問題はありませんが、テキストを抽出する方法がわかりません:

下線付き
ハイライト
消された

Adobe Writer にはさまざまなテキスト編集オプションがありますが、それらがどこに「隠されている」のかわかりません。

これらのメタデータ情報を抽出するソリューションはありますか? (下線、ハイライト ...)

Tika がこのデータを抽出できるかどうか知っていますか?

*http://tika.apache.org/

1 に答える 1