いくつかのハード コピー ファイルを手動でスキャンし、pdf ファイル (ソフト コピー) に保存しました。これらの pdf ファイルは私の入力であるため、これらの pdf ファイルからテキストを抽出する必要があります。私はtika、pdfbox、itext、tess4jを試しましたが、私のファイル(インターネットからダウンロードした他のpdfの正確なテキストを取得する)に対して少なくとも50%の精度(ほとんどがジャンクデータを取得する)を提供するものは何もありません。この問題の解決策を提案できますか.
ありがとう