現在、Solr-Cell を使用して、いくつかの html ページのコンテンツを取得し、インデックスを作成しています。問題は、すべてのページに表示されるヘッダーにメニューがあることです。このメニューとそのすべてのアイテムが検索結果に表示されます。これをインデックスに登録したくありません。
これをどのように達成しますか?
特定の DIV (クラス名または ID) を除外することはできますか?
実際にテストを行うと、Solr での Tika の使用方法によって、div、classes、ids 属性を含むほとんどの HTML が削除されることがわかります。
そのため、必要な粒度を取得できない可能性があり、RegexReplaceProcessorFactory UpdateRequestProcessor などを使用して、純粋なテキストと照合して不要な部分を削除する必要がある場合があります。
コードから直接 Tika を呼び出した場合は、より詳細に制御でき、IdentityHtmlMapper を HTML フィルタリングを行わないように設定できます。