レベル 3 までの lucene インデックス ngram に格納しています。インデックスを読み取り、用語と ngram のスコアを計算すると、このような結果が得られます
TERM FREQUENCY.... TFIDF
minority 25 16.512926
minority report 24 16.179296
report 27 13.559037
cruise 12 11.440491
tom cruise 7 8.737819
ですから、「トム・クルーズ」の例で見ると、バイグラムとして合わせて 7 回出現します。そして、このことから、「巡航」が単独で5回発生することがわかります。したがって、この頻度の重複は望ましくありません。なぜなら、「クルーズ」だけで「トム クルーズ」よりも優れたスコアを獲得しているからです。これは真実ではありません。
申し訳ありませんが、このタイプのスコアリングの呼び方がわかりません。誰かがこの専門用語を説明できる場合は、編集してください。
ありがとうございました