solr - Solr で PDF を解析するための Tika/PDFBox の代替 (1.4 以降の任意のバージョン)

Question

Solr が PDF ファイルを正しく解析していないようです。PDFファイルを解析するためにApache Tika（PDFBoxを内部で使用していると思われる）を使用する代わりに他の方法があるかどうか疑問に思っていましたか？これを使用すると、コンテンツ間にランダムなスペースができるようです。同じ問題を抱えているPDFBox（最新バージョン）を介してPDFを直接実行することで、問題を特定しました。

Omnifind などの一部の OCR 商用ソフトウェアは PDF で問題なく動作しますが、それらを同じ方法で Solr と統合することはできず、購入することもできません。

score 2 · Accepted Answer

この SOの質問に対する回答が示すように、これは PDF 形式自体の性質によるものです。

PDFBox よりも OCR オプションの方がこの問題を解決できる可能性があります。TesseractやOcropusなどの無料の OCR オプションがいくつかありますが、それらがどのように機能するか、または Solr と簡単に統合できるかどうかはわかりません。

score 1 · Accepted Answer

私はjpodをフォールバックライブラリとして使用して、pdfboxが完全に失敗したときにpdfから抽出します（ハング、クラッシュなど）。そのため、少なくとも場合によっては、pdbboxよりもうまく機能します。

score 1 · Accepted Answer

Xpdfにはpdftotextが含まれており、Tikaよりもはるかに優れたドキュメントを変換します。

solr - Solr で PDF を解析するための Tika/PDFBox の代替 (1.4 以降の任意のバージョン)

3 に答える 3

Related

Reference