サポート ベクター マシンを使用してテキスト分類を行っていますが、基本的にテスト セットの特徴ベクトルの計算について混乱しています。
特徴ベクトルをトレーニングするために、各トレーニング データの TF-IDF ベクトルを取得し、TF-IDF 値を使用して特徴マトリックス [docs x terms] を構築しました。
しかし、テスト セットの特徴ベクトルを計算するのはどうでしょうか。トレーニング セットの TF-IDF 値を使用して計算する必要がありますか?
例: 特定の単語「リンゴ」のトレーニング セットでは、ドキュメント頻度は 5 です。テスト セットでは、「リンゴ」に値 5 を使用する必要がありますか? または、テスト セットに基づいて TF-IDF を再計算しますか?? むしろ、特徴ベクトルを計算する際に間違った方向に進んでいますか??
前もって感謝します!