問題タブ [tika-server]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
471 参照

java - Tika サーバーから返されたステータス: 404

Pythonを使用してテキスト抽出用にTikaをセットアップしようとしています。をインストールJava runtime jre 1.8.0し、tika を でインストールし、このリンクpip install tika==1.23から tika サーバーの jar ファイルをダウンロードし、このページで説明したように、システム環境変数に変数を追加しました。コマンドでtikaサーバーを起動したところ、以下のようなものが得られましたTIKA_SERVER_JAR="..tika-server-1.9.jar"java -jar "..tika-server-1.9.jar"

ブラウザーで開くhttp://localhost:9998/と、Tika API ドキュメントが表示されます。

しかし、以下に示すように python でテキストを抽出しようとすると。

tika が意図したとおりに動作しません。以下のような例外を発生させています。これはコンソールに表示されるものであり、他には何もありません。

数か月前に tika を python で正常に使用したことがありますが、今何が欠けているのかわかりません。

編集: 上記の python スニペットを実行すると、コンソールに以下のような詳細が表示されます。

これは、python スクリプトを実行してテキストを抽出するたびにコンソールに表示されるものです。

0 投票する
0 に答える
51 参照

apache-tika - TIKA - ドキュメントの Content-Encoding を計算する

ドキュメントのメタデータを抽出するために Tika 1.26 を使用しています。

最初に Tika Server を試し、次にプログラム API に切り替えました。それにもかかわらず、ドキュメントの が/meta APIContent-Encodingまたは MetadataParserを介して返される必要があるとドキュメントに記載されていても、プロパティは実際には返されません。

実際に Charset を返す API はCharsetDetectorであることがわかりましたが、Tika サーバー経由でこの同じ API を呼び出す方法がわかりません。今のところ何の手がかりもありません。

このユースケースをモデル化する正しい方法は何か、または私が何か間違っているかどうかを誰かが指摘できますか?