18

自己組織化マップを視覚化するために、Uマトリックスはどの程度正確に構築されていますか?より具体的には、(すでにトレーニングされた)3x3ノードの出力グリッドがあると仮定します。これからUマトリックスを構築するにはどうすればよいですか?たとえば、ニューロン(および入力)の次元が4であると想定できます。

ウェブ上でいくつかのリソースを見つけましたが、それらは明確ではないか、矛盾しています。たとえば、元の紙はタイプミスでいっぱいです。

4

2 に答える 2

22

Uマトリックスは、入力データの次元空間におけるニューロン間の距離を視覚的に表したものです。つまり、訓練されたベクトルを使用して、隣接するニューロン間の距離を計算します。入力次元が4の場合、トレーニングされたマップの各ニューロンも4次元ベクトルに対応します。3x3の六角形の地図があるとしましょう。

マップラティス

U行列は、このように2つのニューロン間の接続ごとに補間された要素を持つ5x5行列になります。

u-mat格子

{x、y}要素はニューロンxとyの間の距離であり、{x}要素の値は周囲の値の平均です。たとえば、{4,5} = distance(4,5)および{4} = mean({1,4}、{2,4}、{4,5}、{4,7})です。距離の計算には、各ニューロンのトレーニング済み4次元ベクトルと、マップのトレーニングに使用した距離式(通常はユークリッド距離)を使用します。したがって、U行列の値は数値のみです(ベクトルではありません)。次に、これらの値の最大値に明るい灰色を割り当て、最小値に暗い灰色を割り当て、対応する灰色の色合いに他の値を割り当てることができます。これらの色を使用して、Uマトリックスのセルをペイントし、ニューロン間の距離を視覚化することができます。

このWeb記事もご覧ください。

于 2012-11-30T09:26:08.320 に答える
2

質問で引用された元の論文は次のように述べています。

入力データのトポロジーを保持することはできませんが、Kohonenのアルゴリズムの素朴なアプリケーションは、入力データに固有のクラスターを表示することはできません。

第一に、それは真実であり、第二に、それはSOMの深い誤解であり、第三に、それはSOMを計算する目的の誤解でもあります。

例としてRGB色空間を取り上げます。3色(RGB)、6色(RGBCMY)、8色(+ BW)、またはそれ以上ですか?目的とは関係なく、つまりデータ自体に固有のものをどのように定義しますか?

私の推奨は、クラスター境界の最尤推定量をまったく使用しないことです。U-Matrixのような原始的な推定値でさえも、根本的な議論にはすでに欠陥があるためです。次にクラスターを決定するためにどの方法を使用しても、その欠陥を継承します。より正確には、クラスター境界の決定はまったく興味深いものではなく、SOMを構築する真の意図に関する情報が失われています。では、なぜデータからSOMを構築するのでしょうか。いくつかの基本から始めましょう:

  1. すべてのSOMは、データスペースの代表的なモデルです。これは、データスペースの次元を減らすためです。これはモデルであるため、診断ツールおよび予測ツールとして使用できます。しかし、どちらの場合も、普遍的な客観性によって正当化されるわけではありません。代わりに、モデルは、エラーの目的と受け入れられている関連リスクに大きく依存しています。
  2. しばらくの間、U-Matrix(または同様のもの)が妥当であると仮定しましょう。そこで、マップ上のいくつかのクラスターを決定します。それは(目的自体の外で)その基準をどのように正当化するかという問題であるだけでなく、それ以上の計算がいくつかの情報を破壊するので問題もあります(それはモデルに関するモデルです)。
  3. SOMで唯一興味深いのは、精度自体、つまり分類エラーであり、推定ではありません。したがって、検証と堅牢性の観点からモデルを推定することだけが興味深いことです。
  4. すべての予測には目的があり、予測の受け入れは精度の関数であり、精度は分類エラーで表すことができます。分類誤差は、2クラスモデルとマルチクラスモデルで決定できることに注意してください。目的がない場合は、データに対して何もしないでください。
  5. 逆に、「クラスターの数」の概念は、「クラスター内で許容される発散」という基準に完全に依存しているため、データの構造の最も重要なことを覆い隠しています。それはまた、あなたがとることをいとわないリスクとリスク構造(タイプI / IIエラーに関して)に依存します。
  6. では、SOMの数クラスをどのように決定できますか?利用可能な外部アプリオリ推論がない場合、唯一の実行可能な方法は、適合度の事後チェックです。特定のSOMで、異なる数のクラスを課し、誤分類コストの観点から偏差を測定してから、(主観的に)最も満足のいくものを選択します(Occamのかみそりのようないくつかの派手なヒューリスティックを使用)

まとめると、Uマトリックスは、客観性があり得ない場所で客観性を装っています。これは、モデリング全体の重大な誤解です。私見では、SOMによって示されるすべてのパラメーターにアクセスでき、パラメーター化できることは、SOMの最大の利点の1つです。Uマトリックスのようなアプローチは、この透明性を無視し、不透明な統計的推論で再び閉じることによって、まさにそれを破壊します。

于 2014-02-06T16:34:31.187 に答える