TikaのWebサイトでは、(tika-app-1.2.jarに関して)サーバーモードで使用できると書かれています。このサーバーが実行されたら、ドキュメントを送信し、このサーバーから解析されたテキストを受信する方法を知っている人はいますか?
3 に答える
Tika は 2 つの「サーバー」モードをサポートしています。シンプルでオリジナル--server
なのはTika-Appの旗です。より機能的ですが、より最近のものは、追加の jar であるJAX-RS JSR-311 サーバー コンポーネントです。
Tika-App Network Server の使い方は非常に簡単です。フラグを付けて Tika-App を起動し、どのポートでリッスンするか--server
を示すフラグを設定するだけです。--port ###
次に、そのポートに接続し、単一のファイルを送信します。html バージョンが返されます。NetCat はこれに適しています。次のようなものを使用すると、html が返されますjava -jar tika-app.jar --server --port 12345
。nc 127.0.0.1 12345 < MyFileToExtract
JAX-RS JSR-311 サーバー コンポーネントは、メタデータやプレーン テキストなどのために、いくつかの異なる URL をサポートしていますjava -jar tika-server.jar
。戻る。wiki ページには、詳細と例 (テスト用の curl の使用を含む) がたくさんあります。
Tika App Network Server は非常にシンプルで、1 つのモード (HTML への抽出) のみをサポートし、一般的にテスト/デモ/プロトタイピングなどに使用されます。ティカのモードの。最近では、ネットワーク経由で、および/または非 Java スタックから Tika とやり取りする方法として一般的に推奨されています。
Gagravarrの完璧な答えを強化するには:
- ドキュメントが WEB サーバーから取得された場合 => curl -u "http:// myserver-domain /*path-to-doc*/ doc-name.extension " | NC 127.0.0.1 12345
- ドキュメントがパスワードで保護されている場合はさらに良いです => curl -u login :*password* "http:// myserver-domain /*path-to-doc*/ doc-name.extension " | NC 127.0.0.1 12345