5

Solr が PDF ファイルを正しく解析していないようです。PDFファイルを解析するためにApache Tika(PDFBoxを内部で使用していると思われる)を使用する代わりに他の方法があるかどうか疑問に思っていましたか?これを使用すると、コンテンツ間にランダムなスペースができるようです。同じ問題を抱えているPDFBox(最新バージョン)を介してPDFを直接実行することで、問題を特定しました。

Omnifind などの一部の OCR 商用ソフトウェアは PDF で問題なく動作しますが、それらを同じ方法で Solr と統合することはできず、購入することもできません。

4

3 に答える 3

2

この SOの質問に対する回答が示すように、これは PDF 形式自体の性質によるものです。

PDFBox よりも OCR オプションの方がこの問題を解決できる可能性があります。TesseractOcropusなどの無料の OCR オプションがいくつかありますが、それらがどのように機能するか、または Solr と簡単に統合できるかどうかはわかりません。

于 2011-11-16T11:00:09.560 に答える
1

私はjpodをフォールバックライブラリとして使用して、pdfboxが完全に失敗したときにpdfから抽出します(ハング、クラッシュなど)。そのため、少なくとも場合によっては、pdbboxよりもうまく機能します。

于 2011-11-16T15:05:35.387 に答える
1

Xpdfにはpdftotextが含まれており、Tikaよりもはるかに優れたドキュメントを変換します。

于 2011-11-16T15:02:44.247 に答える