information-retrieval - 複数のドキュメントで IDF が異なるのはなぜですか?

Question

LETORを使って情報検索システムを作っています。TF と IDF を使用します。TFはクエリに依存していると確信しています。しかし、IDF はする必要がありますが、:

「IDF はドキュメントに依存しないため、クエリの下のすべてのドキュメントは同じ IDF 値を持つことに注意してください。」

しかし、IDF は機能リストの一部であるため、これは意味がありません。各ドキュメントの IDF はどのように計算されますか?

score 5 · Accepted Answer

IDF は用語固有です。任意の用語の IDF はドキュメントに依存しませんが、TF はドキュメント固有です。

別の言い方をすれば。3 つのドキュメントがあるとします。

doc id 1 「怠惰な犬を飛び越える素早い茶色のキツネ」

doc id 2 "ザスライフォックスパブアナポリスはチャーチサークルにあります"

doc id 3 "歴史地区の中心、チャーチサークルに位置"

IDF が (ドキュメントの数) / (用語 t を含むドキュメントの数) である場合、用語 fox の IDF は、検索の内容やドキュメントの内容に関係なく、3/2 です。したがって、IDF は t の関数です。

一方、TF は t と d の関数です。したがって、ドキュメント ID 1 の「the」の TF は 2 です。

score 4 · Accepted Answer

jshenが言ったことに追加するには：

IDFは、検索している特定のコーパスで特定の単語またはグラムがどれだけ一般的であるかを示す尺度です。これは、その単語がどれほどまれであるか、したがってその重要性の可能性を推定したものです。したがって、クエリに珍しい単語が含まれている場合、その珍しい単語を含むドキュメントの方が重要であると判断する必要があります。

information-retrieval - 複数のドキュメントで IDF が異なるのはなぜですか?

2 に答える 2

Related

Reference