machine-learning - ベクトルの正規化によってクラスタリングと分類の精度が向上するのはなぜですか?

Question

正規化によって精度がわずかに向上することは、Mahout in Action で説明されています。誰でも理由を説明できますか、ありがとう！

score 42 · Accepted Answer

正規化は必ずしも必要ではありませんが、問題になることはめったにありません。

いくつかの例：

K-means クラスタリングは、空間のすべての方向で「等方性」であるため、多かれ少なかれ丸い (細長いクラスターではなく) クラスターを生成する傾向があります。この状況では、分散を等しくないままにすることは、分散が小さい変数に重みを付けることと同じです。

Matlab での例:

X = [randn(100,2)+ones(100,2);...
     randn(100,2)-ones(100,2)];

% Introduce denormalization
% X(:, 2) = X(:, 2) * 1000 + 500;

opts = statset('Display','final');

[idx,ctrs] = kmeans(X,2,...
                    'Distance','city',...
                    'Replicates',5,...
                    'Options',opts);

plot(X(idx==1,1),X(idx==1,2),'r.','MarkerSize',12)
hold on
plot(X(idx==2,1),X(idx==2,2),'b.','MarkerSize',12)
plot(ctrs(:,1),ctrs(:,2),'kx',...
     'MarkerSize',12,'LineWidth',2)
plot(ctrs(:,1),ctrs(:,2),'ko',...
     'MarkerSize',12,'LineWidth',2)
legend('Cluster 1','Cluster 2','Centroids',...
       'Location','NW')
title('K-means with normalization')

ここに画像の説明を入力

(参考:データセットがクラスター化されているか非クラスター化されているか (つまり、1 つのクラスターを形成しているかどうか) を検出するにはどうすればよいですか?

分散クラスタリング:

比較分析は、分散クラスタリングの結果が正規化手順のタイプに依存することを示しています。

人工ニューラルネットワーク (入力) :

入力変数が MLP のように線形に結合されている場合、少なくとも理論上は、入力を厳密に標準化する必要はほとんどありません。その理由は、入力ベクトルの再スケーリングは、対応する重みとバイアスを変更することで効果的に元に戻すことができ、以前とまったく同じ出力が得られるためです。ただし、入力を標準化することでトレーニングを高速化し、局所的な最適化に行き詰まる可能性を減らすことができるさまざまな実際的な理由があります。また、重み減衰とベイジアン推定は、標準化された入力を使用してより便利に実行できます。

人工ニューラルネットワーク (入力/出力)

データに対してこれらのことを行う必要がありますか? 答えは、場合によります。

入力変数またはターゲット変数のいずれかを標準化すると、最適化問題の数値条件 ( ftp://ftp.sas.com/pub/neural/illcond/illcond.htmlを参照) が改善され、さまざまなデフォルトが保証されるため、トレーニングプロセスの動作が改善される傾向があります。初期化と終了に含まれる値は適切です。ターゲットを標準化すると、目的関数にも影響を与える可能性があります。

ケースの標準化は情報を破棄するため、注意してアプローチする必要があります。その情報が無関係である場合、ケースを標準化することは非常に役立ちます。その情報が重要な場合、ケースを標準化することは悲惨なことになる可能性があります。

興味深いことに、測定単位を変更すると、非常に異なるクラスタリング構造が見られる場合さえあります: Kaufman、Leonard、および Peter J. Rousseeuw..「データ内のグループの検索: クラスター分析の紹介」. （2005）。

一部のアプリケーションでは、測定単位を変更すると、非常に異なるクラスタリング構造が表示される場合さえあります。たとえば、架空の 4 人の人物の年齢 (年) と身長 (センチメートル) を表 3 に示し、図 3 にプロットします。 . 一方、高さをフィートで表すと、表 4 と図 4 が得られ、明らかなクラスターは {A, C} と { B, D} になります。このパーティションは、各サブジェクトが別のコンパニオンを受け取ったため、最初のパーティションとはまったく異なります。(もし年齢が日数で測定されていたら、図 4 はさらに平らになっていたでしょう。)

測定単位の選択への依存を避けるために、データを標準化するオプションがあります。これにより、元の測定値が単位のない変数に変換されます。

ここに画像の説明を入力

カウフマン等。いくつかの興味深い考慮事項が続きます (11 ページ)。

哲学的な観点から言えば、標準化は実際には問題を解決しません。実際、測定単位の選択により、変数の相対的な重みが生じます。変数を小さい単位で表現すると、その変数の範囲が大きくなり、結果の構造に大きな影響を与えます。一方、客観性を達成することを期待して、標準化することにより、すべての変数に均等な重みを与えようとします。そのため、予備知識を持たない開業医でも使用できます。ただし、特定のアプリケーションでは、一部の変数が他の変数よりも本質的に重要である可能性があり、重みの割り当ては主題の知識に基づいている必要があります (たとえば、Abrahamowicz、1985 を参照)。一方で、変数のスケールに依存しないクラスタリング手法を考案する試みがありました (Friedman and Rubin, 1967)。Hardy と Rasson (1982) の提案は、クラスターの凸包の総体積を最小化する分割を検索することです。原則として、このような方法はデータの線形変換に関して不変ですが、残念ながらその実装のためのアルゴリズムは存在しません (2 次元に制限される近似を除く)。したがって、標準化のジレンマは現在のところ避けられないように思われ、この本で説明されているプログラムはユーザーに選択を委ねています。Hardy と Rasson (1982) の提案は、クラスターの凸包の総体積を最小化する分割を検索することです。原則として、このような方法はデータの線形変換に関して不変ですが、残念ながらその実装のためのアルゴリズムは存在しません (2 次元に制限される近似を除く)。したがって、標準化のジレンマは現在のところ避けられないように思われ、この本で説明されているプログラムはユーザーに選択を委ねています。Hardy と Rasson (1982) の提案は、クラスターの凸包の総体積を最小化する分割を検索することです。原則として、このような方法はデータの線形変換に関して不変ですが、残念ながらその実装のためのアルゴリズムは存在しません (2 次元に制限される近似を除く)。したがって、標準化のジレンマは現在のところ避けられないように思われ、この本で説明されているプログラムはユーザーに選択を委ねています。

machine-learning - ベクトルの正規化によってクラスタリングと分類の精度が向上するのはなぜですか?

3 に答える 3

Related

Reference