2

デフォルトの用語頻度 (tf) は、検索対象の特定の用語がフィールドに出現する回数の sqrt として単純に計算されることを理解しています。そのため、検索対象の用語が複数回出現するドキュメントは、より高い tf を持ち、したがって重みが高くなります。

私が確信が持てないのは、これが重みが高いためにドキュメントスコアを上げるのに役立つのか、それともドキュメントベクトルをクエリベクトルから遠ざけるためにドキュメントスコアを下げるのかということです。 . ドキュメントベクターモデルが lucene スコアリング方程式にどのように適合するかを確認するのに本当に苦労していることを告白します

4

1 に答える 1

1

この本をチェックする必要はありませんが、基本的に (インデックス作成時に手動で設定できるさまざまなブーストを無視した場合)、ドキュメントのスコアがドキュメントのスコアよりも高い (または低い) 場合がある理由は 3 つあります。 Lucene のデフォルトのスコアリング モデルを使用し、特定のクエリに対する他のドキュメント:

  • クエリされた用語のドキュメント頻度が低い (スコアのIDF部分が高くなる)、
  • クエリされた用語がドキュメント内で多数出現している (スコアのTF部分が高くなる)、
  • クエリされた用語は、ドキュメントのかなり小さなフィールドに表示されます (スコアの標準部分を押し上げます)。

これは、2 つのドキュメント D1 および D2 と 1 つのクエリされた用語 T の場合、

  • T は D1 に n 回出現し、
  • T は D2 で p > n 回出現し、
  • D2 のクエリされたフィールドは、D1 と (ほぼ) 同じサイズ (用語の数) を持ち、

D2 のスコアは D1 よりも高くなります。

于 2012-03-07T23:23:34.420 に答える