java - Solr インデックスから一部の HTML パーツ (ヘッダー、メニュー、フッターなど) を無視するにはどうすればよいですか?

Question

Nutch が提供する schema.xml を使用して、Nutch + Solr (4.3.0) を使用してサイトのインデックスを作成しています。

私の問題は、ヘッダーまたはメニューにあるいくつかの単語を含む検索を行うと、明らかに、Solr がすべてのページで応答することです。

私が望むのは、これらの HTML ブロックをインデックスから削除して、いわば「誤検知」が検索に含まれないようにすることです。

私は次のようなことを試みていました：

<charFilter class="solr.PatternReplaceCharFilterFactory" 
      pattern="HEADER STARTS(.*?)HEADER ENDS" replacement="" />

私のコンテンツfieldTypeのインデックスアナライザーに適用され、「HEADER STARTS / ENDS」HTMLコメントですが、まったく効果がないようです。

グーグルでこれ以上のものを見つけることができませんでした...しかし、私はこの技術スタックの初心者です。

どんな助けでも大歓迎です！

ありがとう！！！

score 2 · Accepted Answer

あなたはボイラーパイプを見ているかもしれません。その課題に特化したJavaライブラリです。良い結果が出ているプロジェクトで使用しましたが、プレーンな Lucene で使用しました。Solr 統合については、未解決の問題があります

score 1 · Accepted Answer

コミットされたNUTCH-585は、トランクと最新の Nutch バージョンで利用できるはずであり、ニーズを満たす必要があります。

2 に答える 2