3

私は最近、バイナリ感情分析で使用される有名な映画レビュー データセットをいじっていました。1,000 件の肯定的なレビューと 1,000 件の否定的なレビューで構成されています。ユニグラム機能を使用したさまざまな機能エンコーディングを調査しているときに、以前のすべての研究出版物が、ベクトルを単位長にスケーリングするために、ユークリッド ノルムによってベクトルを正規化していることに気付きました。

しかし、Liblinear を使用した私の実験では、このような長さの正規化によって分類の精度が大幅に低下することがわかりました。私はベクトルを研究しましたが、これが理由だと思います。ベクトル空間の次元は、たとえば 10,000 です。その結果、ベクトルのユークリッド ノルムは、個々の投影に比べて非常に高くなります。したがって、正規化後、すべてのベクトルは各軸 (つまり、軸上の射影) で非常に小さな数値になります。

この分野のすべての出版物は、コサイン正規化を実行すると主張しているのに対し、正規化しない方がより良い分類が得られることがわかったので、これは私を驚かせました。

したがって、私の質問: SVM 特徴ベクトルのコサイン正規化を実行しない場合、特定の欠点はありますか? (基本的に、この正規化の必要性について数学的な説明を求めています)。

4

1 に答える 1

1

LibSVM のマニュアルを熟読した後、正規化しない場合と比べて、正規化を行った場合の精度が大幅に低下する理由がわかりました。彼らは、データを [0,1] または [-1,1] 間隔にスケーリングすることを推奨しています。これは私がやったことのないことです。スケールアップすると、長さの正規化の利点を維持しながら、ゼロに非常に近いデータポイントが多すぎるという問題が解決されます。

于 2012-07-27T10:18:43.190 に答える