nlp - SVMを使用する場合、TF-IDFは必要ですか?

Question

サポートベクターマシンを使用してフレーズを分類しています。SVM を使用する前に、フレーズベクトルに対して何らかの正規化を行う必要があることを理解しています。一般的な方法の 1 つに TF-IDF があります。

TF-IDF スコアが最も高い用語は、多くの場合、ドキュメントのトピックを最もよく特徴付ける用語です。

しかし、それはまさに SVM が行うことではないでしょうか? ドキュメントを最もよく特徴付ける用語に最大の重みを与えますか?

前もって感謝します：-）

score 2 · Accepted Answer

用語の重み (SVM 分類子によって割り当てられる) は、特定のクラスに対するその用語の関連性に直接比例する場合と、そうでない場合があります。これは、分類子のカーネルと使用される正則化に依存します。SVM は、単一のドキュメントを最もよく特徴付ける用語に重みを割り当てません。

用語頻度 (tf) と逆ドキュメント頻度 (idf) を使用して、ドキュメントベクトル内の用語の値をエンコードします。これは、SVM 分類器とは無関係です。

1 に答える 1