デフォルトの用語頻度 (tf) は、検索対象の特定の用語がフィールドに出現する回数の sqrt として単純に計算されることを理解しています。そのため、検索対象の用語が複数回出現するドキュメントは、より高い tf を持ち、したがって重みが高くなります。
私が確信が持てないのは、これが重みが高いためにドキュメントスコアを上げるのに役立つのか、それともドキュメントベクトルをクエリベクトルから遠ざけるためにドキュメントスコアを下げるのかということです。 . ドキュメントベクターモデルが lucene スコアリング方程式にどのように適合するかを確認するのに本当に苦労していることを告白します