1

ベクトル空間モデルを使用して、SVM Light で SVM 分類器を構築しようとしています。1000 個のドキュメントと、各ドキュメントをベクトル化するために使用する用語の辞書があります。1000 個のドキュメントのうち、600 個がトレーニング セット用であり、残りの 400 個は相互検証セットとテスト セット用に均等に (それぞれ 200 個ずつ) 分割されます。

ここで、分類用のモデルを生成するために、600 個のトレーニング セット (tf-idf を使用してベクトル化) を使用して SVM 分類器をトレーニングするとします。

モデルを交差検証セットに適用する場合、同じ idf を使用しますか (モデルはトレーニング セットに対応しているため)、または交差検証セットに基づいて新しい idf を計算する必要がありますか? また、モデルを単一のドキュメントに適用する場合、このセットにはドキュメントが 1 つしか含まれないため、どのように idf を適用しますか?

4

2 に答える 2

2

トレーニング ドキュメントで idf を作成し、新しいテスト ドキュメントが作成されるたびに使用します。テスト ドキュメントごとに、クエリ内の各用語の idf を使用して、クエリの単語リストを作成できます。idf に単語が含まれていない場合、クエリは 0 を返します。分類は、確立された idf に基づいて取得されます。

于 2013-12-12T16:38:09.853 に答える
1

そのIDFに対応する分類子を作成したため、トレーニングセットと同じIDFを使用する必要があります。したがって、新しいIDFでは結果が異なります。

于 2013-12-12T16:04:55.773 に答える