text - テスト時に IDF (TF-IDF のように) を計算しますか?

Question

私が理解しているように、IDF は、その用語が含まれるドキュメントの数を計算するために使用されます (単なるアイデアのようなものです)。事前にすべてのドキュメントがあるため、トレーニングセットで IDF (TF と共に) を計算できます。しかし、事前にテストセットを用意しておらず、(Web クローラーなどから) テストドキュメントを順次取得している場合、テストの際にドキュメント内の単語の IDF をどのように計算すればよいでしょうか。 ?

score 2 · Accepted Answer

この状態では、データセットが十分に大きい場合は、IDF のトレーニングセットのみを使用できます。テストフェーズでは、新しい用語がトレーニングセット内にある場合はトレーニングの IDF を使用し、用語が新しい場合はトレーニングセットドキュメントの数を使用して IDF を計算します。目的によっては、より良い結果を得るために平滑化方法を使用できます。

score 0 · Accepted Answer

一連のドキュメント全体のインデックス作成/クロール後にのみテストを実行する場合は、クロールが完了した後に IDF を計算できます。新しい文書や新しい用語に遭遇したときに IDF を計算する必要はありません。TD-IDF やその他の計算を行う必要がある場合は、オンザフライで計算できます。

それが十分でない場合、何らかの理由で、別のドキュメントデータセットの IDF を引き続き使用できます。できれば同じ種類のドキュメントを使用できます。

text - テスト時に IDF (TF-IDF のように) を計算しますか?

2 に答える 2

Related

Reference