2

サポート ベクター マシンを使用してテキスト分類を行っていますが、基本的にテスト セットの特徴ベクトルの計算について混乱しています。

特徴ベクトルをトレーニングするために、各トレーニング データの TF-IDF ベクトルを取得し、TF-IDF 値を使用して特徴マトリックス [docs x terms] を構築しました。

しかし、テスト セットの特徴ベクトルを計算するのはどうでしょうか。トレーニング セットの TF-IDF 値を使用して計算する必要がありますか?

例: 特定の単語「リンゴ」のトレーニング セットでは、ドキュメント頻度は 5 です。テスト セットでは、「リンゴ」に値 5 を使用する必要がありますか? または、テスト セットに基づいて TF-IDF を再計算しますか?? むしろ、特徴ベクトルを計算する際に間違った方向に進んでいますか??

前もって感謝します!

4

1 に答える 1

5

トレーニング セットを使用して、すべての用語の IDF (逆ドキュメント頻度) を計算する必要があります。次に、テスト セット内のドキュメントに同じ IDF を使用する必要があります。一方、TF は、分類しようとしている手元の具体的なドキュメントに依存するため、テスト セットとトレーニング セット内のドキュメントによって異なります。

于 2013-04-21T21:37:57.550 に答える