pdf - Solr ExtractingRequestHandlerがpdfドキュメントに空のコンテンツを与える

Question

ドキュメントのコンテンツを取得してインデックスを作成するために、Solr で ExtractingRequestHandler を使用しています。すべての Microsoft ドキュメントで正常に機能しますが、PDF の場合、抽出されるコンテンツは空です。また、curl で extractOnly=true を試してみましたが、これも空の本文だけを返します。

同じドキュメントでTIKAを個別に使用しましたが、コンテンツをうまく抽出できます。違いは、独立して行う場合、Solr で使用される SolrContentHandler の代わりに、Tika に付属の BodyContentHander を使用していることです。誰もこれを見たことがありますか？

私は、Tika を使用して Solr の外部にコンテンツを抽出するよりも、Solr に処理させたいと思っています。

score 1 · Accepted Answer

私はこの問題を理解する前に何時間も対処しました。PDFを非バイナリモードで開き、ファイルの最初のEOF文字までのみsolrにフィードしていました。Solrは（PDFのヘッダーに表示されるように）ファイルからメタデータを抽出しますが、応答で空のbodyタグを返します。

これは元のポスターには当てはまらないかもしれませんが、他の誰かが彼らの人生の時間を無駄にするのを本当に助けるかもしれません。

pdf - Solr ExtractingRequestHandlerがpdfドキュメントに空のコンテンツを与える

1 に答える 1

Related

Reference