svm - SVM線形カーネルにおけるTF-IDFとTFの違い

Question

IDF は定数だからです。1 つの次元のすべての値に定数を掛けます。

SVM 線形カーネルでは、結果は異なりますか?

score 1 · Accepted Answer

あなたの最初の質問は本当に意味がありません。2 つの異なる世界を混同します: 1) TF/IDF: テキスト表現の機能 2) SVM - 線形カーネル: SVM の最も単純なアプローチ (実際にテキストに使用されます)。

TF と TF/IDF の違いは、単語のコーパス頻度を使用するかどうかです。TF/IDF は、分類子に関係なく、はるかに優れた選択です。

TF のみを使用すると、単語が一般的かどうかはあまり気にしません。したがって、記事などの一般的な単語は、実際の情報に寄与しない場合でも、大きな重みを受け取ります。

TF/IDF では、単語がコーパス内で頻繁に使用されるほど、重みが小さくなります。したがって、記事のような一般的な単語は小さな重みを受け取りますが、より多くの情報を運ぶと想定されるまれな単語は大きな重みを受け取ります。

NB 上記では、「アーティクル」は、通常は前処理ステップで削除する必要がある例として使用されています。

1 に答える 1