Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
PDF から文字列にテキストを抽出するために iText を使用していますが、一部の PDF で問題が発生しました。テキストを抽出しようとすると、リーダーは一部の pdf で空白または破棄されたテキストのみを抽出します。
破壊されたテキストの例:
「抽出テキストのテストには時間がかかります」
この問題の原因は何ですか?
フォントを削除して、読者が読むのに適したフォントに変更することを考えています。これについて調べてみましたが、私が見つけたものは役に立ちません。
これは、テキストが PDF ファイルに保存される方法が原因です。レンダリングと場所の情報を含む文字を配置するだけです。テキスト抽出アルゴリズムは、近接しているように見える文字を検出し、近接している場合はそれらを結合するという点で優れています。それらがそれほど近くない場合は、スペースがいくらか入ります。
とはいえ、どうすればよいかは言えません。