0

Nutchを使用してサイトを正常にクロールし、Solrをインデクサー/サーチャーとして使用して強調表示された要約を返そうとしています。したがって、「ocean」をクエリする場合、そのクエリ用語を含むWebページのテキスト(タイトルやURLではない)だけから20〜30語の要約を返したいと思います。

Nutchschema.xmlをSolrschema.xmlとしてコピーしました。

したがって、2つの質問があります。1。Nutch schema.xmlの「content」フィールドはWebページの本文要素のフィールドですか?2.このフィールドが保存されていない場合、Solrに検索時にそのフィールドを取得させて、強調表示できるようにする方法はありますか?

4

1 に答える 1

1
  1. 私は長い間Nutchを使用していませんが、「コンテンツ」が強調したいフィールドであると考えるのはかなり安全だと思います。

  2. 強調表示を使用できるようにするには、フィールドを格納する必要があります。FastVectorHighlightingを使用する場合は、そのフィールドに対して次の属性を有効にする必要があります:termVectors、termPositions、termOffsets。

FVHを使用する場合は、Solr3.5以降でboundaryScannerを使用することもできます。

于 2012-04-04T08:54:23.107 に答える