変更されていない Apache tika-server 1.22 の JAX-RS インスタンスを実行し、それを HTTP エンドポイント サービスとして使用して、ファイルを (主に Office、PDF、および RTF) に投稿し、HTTP 要求でプレーンテキスト レンディションを取得します (Accept="text/plain"
ヘッダー) アプリケーションから。
Tika 1.15 以降、デフォルトの動作は「すべての埋め込みドキュメントを抽出する」TIKA-2096 になりました。
埋め込みドキュメントが抽出されず、メイン ドキュメント コンテンツのテキスト レンディションのみが取得されるように、tika サーバーでこの動作をオフにできるようにしたいと考えています。
ファイルを介してこれを行うことは可能ですか、それとも何もしないようにtika-config.xml
カスタム ビルドとサブクラスを実行する必要がありますか?EmbeddedDocumentExtractor
tika-parser-exclude-pdf-attachmentsへの回答は、サブクラス化することでこの動作をオフにできることを示していますが、tika-server のカスタム ビルドを実行しなくても、EmbeddedDocumentExtractor
これを実行できるかどうかを確認したいと思います。tika-config.xml
私はTikaの設定を見てきましたが、ここに埋め込まれたドキュメントについての言及はありません.