ベクトル空間モデルを使用して、SVM Light で SVM 分類器を構築しようとしています。1000 個のドキュメントと、各ドキュメントをベクトル化するために使用する用語の辞書があります。1000 個のドキュメントのうち、600 個がトレーニング セット用であり、残りの 400 個は相互検証セットとテスト セット用に均等に (それぞれ 200 個ずつ) 分割されます。
ここで、分類用のモデルを生成するために、600 個のトレーニング セット (tf-idf を使用してベクトル化) を使用して SVM 分類器をトレーニングするとします。
モデルを交差検証セットに適用する場合、同じ idf を使用しますか (モデルはトレーニング セットに対応しているため)、または交差検証セットに基づいて新しい idf を計算する必要がありますか? また、モデルを単一のドキュメントに適用する場合、このセットにはドキュメントが 1 つしか含まれないため、どのように idf を適用しますか?