machine-learning - トレーニングセットと同じ IDF を使用して相互検証を実行する必要がありますか?

Question

ベクトル空間モデルを使用して、SVM Light で SVM 分類器を構築しようとしています。1000 個のドキュメントと、各ドキュメントをベクトル化するために使用する用語の辞書があります。1000 個のドキュメントのうち、600 個がトレーニングセット用であり、残りの 400 個は相互検証セットとテストセット用に均等に (それぞれ 200 個ずつ) 分割されます。

ここで、分類用のモデルを生成するために、600 個のトレーニングセット (tf-idf を使用してベクトル化) を使用して SVM 分類器をトレーニングするとします。

モデルを交差検証セットに適用する場合、同じ idf を使用しますか (モデルはトレーニングセットに対応しているため)、または交差検証セットに基づいて新しい idf を計算する必要がありますか? また、モデルを単一のドキュメントに適用する場合、このセットにはドキュメントが 1 つしか含まれないため、どのように idf を適用しますか?

score 2 · Accepted Answer

トレーニングドキュメントで idf を作成し、新しいテストドキュメントが作成されるたびに使用します。テストドキュメントごとに、クエリ内の各用語の idf を使用して、クエリの単語リストを作成できます。idf に単語が含まれていない場合、クエリは 0 を返します。分類は、確立された idf に基づいて取得されます。

score 1 · Accepted Answer

そのIDFに対応する分類子を作成したため、トレーニングセットと同じIDFを使用する必要があります。したがって、新しいIDFでは結果が異なります。

machine-learning - トレーニング セットと同じ IDF を使用して相互検証を実行する必要がありますか?

2 に答える 2

Related

Reference

machine-learning - トレーニングセットと同じ IDF を使用して相互検証を実行する必要がありますか?