問題タブ [tika-server]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Tika サーバーから返されたステータス: 404
Pythonを使用してテキスト抽出用にTikaをセットアップしようとしています。をインストールJava runtime jre 1.8.0
し、tika を でインストールし、このリンクpip install tika==1.23
から tika サーバーの jar ファイルをダウンロードし、このページで説明したように、システム環境変数に変数を追加しました。コマンドでtikaサーバーを起動したところ、以下のようなものが得られましたTIKA_SERVER_JAR="..tika-server-1.9.jar"
java -jar "..tika-server-1.9.jar"
ブラウザーで開くhttp://localhost:9998/
と、Tika API ドキュメントが表示されます。
しかし、以下に示すように python でテキストを抽出しようとすると。
tika が意図したとおりに動作しません。以下のような例外を発生させています。これはコンソールに表示されるものであり、他には何もありません。
数か月前に tika を python で正常に使用したことがありますが、今何が欠けているのかわかりません。
編集: 上記の python スニペットを実行すると、コンソールに以下のような詳細が表示されます。
これは、python スクリプトを実行してテキストを抽出するたびにコンソールに表示されるものです。
apache-tika - TIKA - ドキュメントの Content-Encoding を計算する
ドキュメントのメタデータを抽出するために Tika 1.26 を使用しています。
最初に Tika Server を試し、次にプログラム API に切り替えました。それにもかかわらず、ドキュメントの が/meta APIContent-Encoding
または MetadataParserを介して返される必要があるとドキュメントに記載されていても、プロパティは実際には返されません。
実際に Charset を返す API はCharsetDetectorであることがわかりましたが、Tika サーバー経由でこの同じ API を呼び出す方法がわかりません。今のところ何の手がかりもありません。
このユースケースをモデル化する正しい方法は何か、または私が何か間違っているかどうかを誰かが指摘できますか?