問題タブ [tika-server]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-tika - Tikaサーバーで抽出されるテキストの量を制限するには?
私のシナリオでは、いくつかの大きな PDF ファイルがあり、tika サーバーによって抽出されて返されるテキストの量を制限したいと考えています。Java ライブラリを直接使用できることはわかっています。ただし、tika-server/tika
エンドポイントに HTTP リクエストを行う場合、どうすればこれを行うことができますか?
java - JNIUS & TIKA - parseToString の試行中にエラーが発生しました
parseToString
jnius で tike-app を実行しようとしましたが、問題が発生しました (macOS Sierra、Java 1.8 JDK、Python 2.7 & Python 3.6)コマンドまではすべて正常に動作します (tika.detect の出力は正常です) 。このコマンドを実行すると、ポップアップが表示されるようです (Java プログラムでもテストされ、動作します)。しかし、jnius で実行すると動作が停止し、出力もエラーもありません。
html - divの間にスペースを含めるためのApache Tika構成
Apache Tika の設定方法を知りたいです。
現在、これを使用して html ファイルを解析し、Apache Tika パーサーから取得した解析済みデータに基づいて検索を行っています。
問題 : Apache tika は実際に異なる div から利用可能なデータをマージし、それらの間にスペースを含めません。
例: 以下のような div がある場合:
解析されたコンテンツは次のようになります
ギリッシュクマール
しかし、私はそれが欲しい
ギリッシュ (スペース) クマール
すべてのdivの後にスペースが含まれるようにApache tikaを構成するにはどうすればよいですか??
現在、サーバーの 1 つにApache Tika Jarをインストールし、それを呼び出して応答を取得しています。