java - Javaを使用してスキャンしたPDFファイルからテキストを抽出する方法

翻译自：https://stackoverflow.com/questions/19021761 2013-09-26T07:17:40.783

2430 次

いくつかのハードコピーファイルを手動でスキャンし、pdf ファイル (ソフトコピー) に保存しました。これらの pdf ファイルは私の入力であるため、これらの pdf ファイルからテキストを抽出する必要があります。私はtika、pdfbox、itext、tess4jを試しましたが、私のファイル（インターネットからダウンロードした他のpdfの正確なテキストを取得する）に対して少なくとも50％の精度（ほとんどがジャンクデータを取得する）を提供するものは何もありません。この問題の解決策を提案できますか.

ありがとう

java - Javaを使用してスキャンしたPDFファイルからテキストを抽出する方法

0 に答える 0

Related

Reference