Solr が提供する結果で HTML ドキュメントの元のフォーマットを維持するにはどうすればよいですか?
何百万ものドキュメントがあり、すべてが同様のフォーマットを持っていない会社の Web サイトの 1 つで検索機能を提供しようとしています。そのため、各ドキュメントを個別にフォーマットするのは困難です。
Solr -cell と tika のサポートが組み込まれている apache サイトで、Solr 4.1 ナイトリー ビルドを使用しています。つまり、それらを個別に構成する必要はありません。
solr-cell または tika はこれらのフォーマットをどこかに保持しますか?
フォーマットが保持されない場合は、solr のresourcenameフィールドを使用して物理ファイルの場所から各ドキュメントをフェッチし、ハイライトやその他の solr 既製機能を適用する必要がありますが、このプロセスは面倒です。
編集:答えでJayendraが提案したように、「HTMLStripCharFilterFactory」を使用する必要がある場合、リクエストハンドラーとして何を使用できますか? その場合、メタデータタグも抽出できますか?
誰でもこれに関して私を案内できますか!
いつも応援ありがとうございます.!!!