0

Apache Tika の設定方法を知りたいです。

現在、これを使用して html ファイルを解析し、Apache Tika パーサーから取得した解析済みデータに基づいて検索を行っています。

問題 : Apache tika は実際に異なる div から利用可能なデータをマージし、それらの間にスペースを含めません。

例: 以下のような div がある場合:

<div1>Girish</div><div>Kumar</div>

解析されたコンテンツは次のようになります

ギリッシュクマール

しかし、私はそれが欲しい

ギリッシュ (スペース) クマール

すべてのdivの後にスペースが含まれるようにApache tikaを構成するにはどうすればよいですか??

現在、サーバーの 1 つにApache Tika Jarをインストールし、それを呼び出して応答を取得しています。

4

0 に答える 0