多くのテーブルを持つpdfファイルからテキストを抽出するためにtikaを使用しています。
java -jar tika-app-0.9.jar -t https://s3.amazonaws.com/centraldoc/alg1.pdf
無効なテキストが返され、2 つの単語の間の空白が削除されることがあります。たとえば、「現実世界への数学的アイデアのリンク」ではなく、「現実世界への数学的アイデア」を返します。
この種のエラーを最小限に抑える方法はありますか? または、使用できる別のライブラリがありますか? OCRを使用してこれらの種類のpdfを処理することは理にかなっていますか?