0

Nutch が提供する schema.xml を使用して、Nutch + Solr (4.3.0) を使用してサイトのインデックスを作成しています。

私の問題は、ヘッダーまたはメニューにあるいくつかの単語を含む検索を行うと、明らかに、Solr がすべてのページで応答することです。

私が望むのは、これらの HTML ブロックをインデックスから削除して、いわば「誤検知」が検索に含まれないようにすることです。

私は次のようなことを試みていました:

<charFilter class="solr.PatternReplaceCharFilterFactory" 
      pattern="HEADER STARTS(.*?)HEADER ENDS" replacement="" />

私のコンテンツfieldTypeのインデックスアナライザーに適用され、「HEADER STARTS / ENDS」HTMLコメントですが、まったく効果がないようです。

グーグルでこれ以上のものを見つけることができませんでした...しかし、私はこの技術スタックの初心者です。

どんな助けでも大歓迎です!

ありがとう!!!

4

2 に答える 2

2

あなたはボイラーパイプを見ているかもしれません。その課題に特化したJavaライブラリです。良い結果が出ているプロジェクトで使用しましたが、プレーンな Lucene で使用しました。Solr 統合については、未解決の問題があります

于 2013-06-05T08:23:36.953 に答える
1

コミットされたNUTCH-585は、トランクと最新の Nutch バージョンで利用できるはずであり、ニーズを満たす必要があります。

于 2013-06-04T04:12:06.093 に答える