ドキュメントのコンテンツを取得してインデックスを作成するために、Solr で ExtractingRequestHandler を使用しています。すべての Microsoft ドキュメントで正常に機能しますが、PDF の場合、抽出されるコンテンツは空です。また、curl で extractOnly=true を試してみましたが、これも空の本文だけを返します。
同じドキュメントでTIKAを個別に使用しましたが、コンテンツをうまく抽出できます。違いは、独立して行う場合、Solr で使用される SolrContentHandler の代わりに、Tika に付属の BodyContentHander を使用していることです。誰もこれを見たことがありますか?
私は、Tika を使用して Solr の外部にコンテンツを抽出するよりも、Solr に処理させたいと思っています。