私が理解しているように、IDF は、その用語が含まれるドキュメントの数を計算するために使用されます (単なるアイデアのようなものです)。事前にすべてのドキュメントがあるため、トレーニング セットで IDF (TF と共に) を計算できます。しかし、事前にテスト セットを用意しておらず、(Web クローラーなどから) テスト ドキュメントを順次取得している場合、テストの際にドキュメント内の単語の IDF をどのように計算すればよいでしょうか。 ?
質問する
2853 次
2 に答える
2
この状態では、データセットが十分に大きい場合は、IDF のトレーニング セットのみを使用できます。テスト フェーズでは、新しい用語がトレーニング セット内にある場合はトレーニングの IDF を使用し、用語が新しい場合はトレーニング セット ドキュメントの数を使用して IDF を計算します。目的によっては、より良い結果を得るために平滑化方法を使用できます。
于 2012-05-03T20:54:48.237 に答える
0
一連のドキュメント全体のインデックス作成/クロール後にのみテストを実行する場合は、クロールが完了した後に IDF を計算できます。新しい文書や新しい用語に遭遇したときに IDF を計算する必要はありません。TD-IDF やその他の計算を行う必要がある場合は、オンザフライで計算できます。
それが十分でない場合、何らかの理由で、別のドキュメント データセットの IDF を引き続き使用できます。できれば同じ種類のドキュメントを使用できます。
于 2012-04-11T20:52:54.250 に答える