Nutch が提供する schema.xml を使用して、Nutch + Solr (4.3.0) を使用してサイトのインデックスを作成しています。
私の問題は、ヘッダーまたはメニューにあるいくつかの単語を含む検索を行うと、明らかに、Solr がすべてのページで応答することです。
私が望むのは、これらの HTML ブロックをインデックスから削除して、いわば「誤検知」が検索に含まれないようにすることです。
私は次のようなことを試みていました:
<charFilter class="solr.PatternReplaceCharFilterFactory"
pattern="HEADER STARTS(.*?)HEADER ENDS" replacement="" />
私のコンテンツfieldTypeのインデックスアナライザーに適用され、「HEADER STARTS / ENDS」HTMLコメントですが、まったく効果がないようです。
グーグルでこれ以上のものを見つけることができませんでした...しかし、私はこの技術スタックの初心者です。
どんな助けでも大歓迎です!
ありがとう!!!