solr - Solr は、結果として供給された HTML ドキュメントのフォーマットを保持できますか?

Question

Solr が提供する結果で HTML ドキュメントの元のフォーマットを維持するにはどうすればよいですか?

何百万ものドキュメントがあり、すべてが同様のフォーマットを持っていない会社の Web サイトの 1 つで検索機能を提供しようとしています。そのため、各ドキュメントを個別にフォーマットするのは困難です。

Solr -cell と tika のサポートが組み込まれている apache サイトで、Solr 4.1 ナイトリービルドを使用しています。つまり、それらを個別に構成する必要はありません。

solr-cell または tika はこれらのフォーマットをどこかに保持しますか?

フォーマットが保持されない場合は、solr のresourcenameフィールドを使用して物理ファイルの場所から各ドキュメントをフェッチし、ハイライトやその他の solr 既製機能を適用する必要がありますが、このプロセスは面倒です。

編集:答えでJayendraが提案したように、「HTMLStripCharFilterFactory」を使用する必要がある場合、リクエストハンドラーとして何を使用できますか? その場合、メタデータタグも抽出できますか?

誰でもこれに関して私を案内できますか!

いつも応援ありがとうございます.!!!

score 2 · Accepted Answer

Solr Cell with Tika は、ドキュメントの元の書式設定を維持しません。
Tika を介して Solr に供給されたドキュメントから抽出されたテキストのみを取得します。

それ以外の場合は、HTML ドキュメントを通常の Solr フィールドとしてフィードし、HTMLStripCharFilterFactoryフィルターを適用して両方のコピーを維持する必要があります。

Solr は、stored=true の場合、HTML フィールドを含む元のドキュメントを保持します。
ただし、検索 (indexed=true) の場合、検索はコンテンツに対してのみ行われ、html 要素に対しては行われません。

1 に答える 1