問題タブ [tika-server]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

73 問題

0 投票する

1 に答える

580 参照

apache-tika - tika-server に埋め込まれたドキュメントの解析をオフにする方法はありますか?

変更されていない Apache tika-server 1.22 の JAX-RS インスタンスを実行し、それを HTTP エンドポイントサービスとして使用して、ファイルを (主に Office、PDF、および RTF) に投稿し、HTTP 要求でプレーンテキストレンディションを取得します (Accept="text/plain"ヘッダー) アプリケーションから。

Tika 1.15 以降、デフォルトの動作は「すべての埋め込みドキュメントを抽出する」TIKA-2096 になりました。

埋め込みドキュメントが抽出されず、メインドキュメントコンテンツのテキストレンディションのみが取得されるように、tika サーバーでこの動作をオフにできるようにしたいと考えています。

ファイルを介してこれを行うことは可能ですか、それとも何もしないようにtika-config.xmlカスタムビルドとサブクラスを実行する必要がありますか?EmbeddedDocumentExtractor

tika-parser-exclude-pdf-attachmentsへの回答は、サブクラス化することでこの動作をオフにできることを示していますが、tika-server のカスタムビルドを実行しなくても、EmbeddedDocumentExtractorこれを実行できるかどうかを確認したいと思います。tika-config.xml

私はTikaの設定を見てきましたが、ここに埋め込まれたドキュメントについての言及はありません.

apache-tika tika-server

2019-10-10T08:29:38.527

0 投票する

1 に答える

353 参照

tesseract - tika-server から hocr 出力を取得する

Apache TIKA サーバーを使用して PDF ファイルに OCR を実行しています。

hOCRの出力に興味がありますが、出力をプレーンテキスト形式でしか取得できません。

wikiとコードに従って、X-Tika-OCR...HTTP ヘッダーを使用して Tesseract を構成しようとしています。この場合、X-Tika-OCRoutputType: hocrHTTP ヘッダーを使用していますが、プレーンテキスト出力または HOCR タグのない html 出力が得られます。

/tikaと/rmetaエンドポイントの両方を試しました。

私が使用するcurlコマンド：

また、Acceptヘッダーを text/plain、text/html、text/xhtml、text/hocr に設定してみました。どれも機能しません。最後のものはエラーになります。

私は使っている：

アパッチティカ 1.22
テセラクト 4.1.0-3.1.x86_64
レッドハット 7

2020-01-09T10:40:25.017

1 2 3 4 5 6 7 8 9 10

問題タブ [tika-server]

apache-tika - tika-server に埋め込まれたドキュメントの解析をオフにする方法はありますか?

tesseract - tika-server から hocr 出力を取得する

Reference