Apache Nutch を使用して Web サイトをクロールし、Apache Solr にインデックスを付けました。クエリ ワードが特定のフォント (h2 html タグなど) に存在するドキュメントをブーストするにはどうすればよいですか? たとえば、私のクエリは本で、本を含むページが 2 つあります。最初のページの本はh1 htmlタグにあり、2番目のページの本はh2 htmlタグにあります。2番目のページが上位の結果になるようにしたい(ブーストが大きい)。ありがとう
1 に答える
0
PayLoads (https://issues.apache.org/jira/browse/LUCENE-755) があなたのケースに役立つと思います (用語の特定の発生を他のものよりも高く評価する)。
詳細な説明については、http://edwarddrapkin.com/2011/04/14/an-introduction-to-lucene-payloads/を確認してください。
于 2012-08-15T08:27:08.783 に答える