java - フォントとスタイルを使用した iText PDF テキスト抽出

Question

PDF から文字列にテキストを抽出するために iText を使用していますが、一部の PDF で問題が発生しました。テキストを抽出しようとすると、リーダーは一部の pdf で空白または破棄されたテキストのみを抽出します。

破壊されたテキストの例:

「抽出テキストのテストには時間がかかります」

この問題の原因は何ですか?

フォントを削除して、読者が読むのに適したフォントに変更することを考えています。これについて調べてみましたが、私が見つけたものは役に立ちません。

score 0 · Accepted Answer

これは、テキストが PDF ファイルに保存される方法が原因です。レンダリングと場所の情報を含む文字を配置するだけです。テキスト抽出アルゴリズムは、近接しているように見える文字を検出し、近接している場合はそれらを結合するという点で優れています。それらがそれほど近くない場合は、スペースがいくらか入ります。

とはいえ、どうすればよいかは言えません。

java - フォントとスタイルを使用した iText PDF テキスト抽出

1 に答える 1

Related

Reference