Solr が PDF ファイルを正しく解析していないようです。PDFファイルを解析するためにApache Tika(PDFBoxを内部で使用していると思われる)を使用する代わりに他の方法があるかどうか疑問に思っていましたか?これを使用すると、コンテンツ間にランダムなスペースができるようです。同じ問題を抱えているPDFBox(最新バージョン)を介してPDFを直接実行することで、問題を特定しました。
Omnifind などの一部の OCR 商用ソフトウェアは PDF で問題なく動作しますが、それらを同じ方法で Solr と統合することはできず、購入することもできません。