自己組織化マップを視覚化するために、Uマトリックスはどの程度正確に構築されていますか?より具体的には、(すでにトレーニングされた)3x3ノードの出力グリッドがあると仮定します。これからUマトリックスを構築するにはどうすればよいですか?たとえば、ニューロン(および入力)の次元が4であると想定できます。
ウェブ上でいくつかのリソースを見つけましたが、それらは明確ではないか、矛盾しています。たとえば、元の紙はタイプミスでいっぱいです。
Uマトリックスは、入力データの次元空間におけるニューロン間の距離を視覚的に表したものです。つまり、訓練されたベクトルを使用して、隣接するニューロン間の距離を計算します。入力次元が4の場合、トレーニングされたマップの各ニューロンも4次元ベクトルに対応します。3x3の六角形の地図があるとしましょう。
U行列は、このように2つのニューロン間の接続ごとに補間された要素を持つ5x5行列になります。
{x、y}要素はニューロンxとyの間の距離であり、{x}要素の値は周囲の値の平均です。たとえば、{4,5} = distance(4,5)および{4} = mean({1,4}、{2,4}、{4,5}、{4,7})です。距離の計算には、各ニューロンのトレーニング済み4次元ベクトルと、マップのトレーニングに使用した距離式(通常はユークリッド距離)を使用します。したがって、U行列の値は数値のみです(ベクトルではありません)。次に、これらの値の最大値に明るい灰色を割り当て、最小値に暗い灰色を割り当て、対応する灰色の色合いに他の値を割り当てることができます。これらの色を使用して、Uマトリックスのセルをペイントし、ニューロン間の距離を視覚化することができます。
このWeb記事もご覧ください。
質問で引用された元の論文は次のように述べています。
入力データのトポロジーを保持することはできませんが、Kohonenのアルゴリズムの素朴なアプリケーションは、入力データに固有のクラスターを表示することはできません。
第一に、それは真実であり、第二に、それはSOMの深い誤解であり、第三に、それはSOMを計算する目的の誤解でもあります。
例としてRGB色空間を取り上げます。3色(RGB)、6色(RGBCMY)、8色(+ BW)、またはそれ以上ですか?目的とは関係なく、つまりデータ自体に固有のものをどのように定義しますか?
私の推奨は、クラスター境界の最尤推定量をまったく使用しないことです。U-Matrixのような原始的な推定値でさえも、根本的な議論にはすでに欠陥があるためです。次にクラスターを決定するためにどの方法を使用しても、その欠陥を継承します。より正確には、クラスター境界の決定はまったく興味深いものではなく、SOMを構築する真の意図に関する情報が失われています。では、なぜデータからSOMを構築するのでしょうか。いくつかの基本から始めましょう:
まとめると、Uマトリックスは、客観性があり得ない場所で客観性を装っています。これは、モデリング全体の重大な誤解です。私見では、SOMによって示されるすべてのパラメーターにアクセスでき、パラメーター化できることは、SOMの最大の利点の1つです。Uマトリックスのようなアプローチは、この透明性を無視し、不透明な統計的推論で再び閉じることによって、まさにそれを破壊します。