Apache Tika の設定方法を知りたいです。
現在、これを使用して html ファイルを解析し、Apache Tika パーサーから取得した解析済みデータに基づいて検索を行っています。
問題 : Apache tika は実際に異なる div から利用可能なデータをマージし、それらの間にスペースを含めません。
例: 以下のような div がある場合:
<div1>Girish</div><div>Kumar</div>
解析されたコンテンツは次のようになります
ギリッシュクマール
しかし、私はそれが欲しい
ギリッシュ (スペース) クマール
すべてのdivの後にスペースが含まれるようにApache tikaを構成するにはどうすればよいですか??
現在、サーバーの 1 つにApache Tika Jarをインストールし、それを呼び出して応答を取得しています。