9

私はCoursera ML クラスに登録しており、ニューラル ネットワークについて学び始めたばかりです。

本当に当惑することの 1 つは、線型結合の適切な重みを見つけると、手書きの数字のような非常に「人間的」なものを簡単に認識できるようになることです。

一見抽象的なもの (車のようなもの) が、線形結合のための本当に良いパラメータをいくつか見つけ、それらを組み合わせて、互いに供給し合うだけで認識できることを理解すると、さらにクレイジーになります。

線型結合の組み合わせは、思っていたよりもはるかに表現可能です。
これにより、少なくとも単純なケースでは、NN の決定プロセスを視覚化できるかどうか疑問に思いました。

たとえば、入力が 20x20 のグレースケール画像 (つまり、合計 400 の特徴) で、出力が認識された数字に対応する 10 のクラスの 1 つである場合、線形結合のどのカスケードが NN をその結論。

ここに画像の説明を入力

これは、認識されている画像の視覚的な合図、「決定に最も影響を与えたピクセル」を示す温度マップ、または特定のケースでニューラル ネットワークがどのように機能したかを理解するのに役立つものとして実装される可能性があると素朴に想像します。

まさにそれを行うニューラルネットワークのデモはありますか?

4

2 に答える 2

2

質問に直接答えないかもしれませんが、 Andrew Ng、Jeff Dean、Quoc Le、Marc'Aurelio Ranzato、Rajat Monga、Matthieu Devin、Kai Chen、Greg Corrado の論文(強調は私のもの)で、この興味深い記事を見つけました。

このセクションでは、ニューロンの最適な刺激が実際に顔であるかどうかを検証するための 2 つの視覚化手法を紹介します。最初の方法は、テスト セットで最も応答性の高い刺激を視覚化することです。テスト セットが大きいため、このメソッドは、テストされたニューロンのほぼ最適な刺激を確実に検出できます。2 番目のアプローチは、数値最適化を実行して最適な刺激を見つけることです。

...

これらの視覚化方法には、補完的な長所と短所があります。たとえば、最も応答性の高い刺激を視覚化すると、ノイズへのフィッティングに苦しむ可能性があります。一方、数値最適化アプローチは極小値の影響を受けやすい可能性があります。[以下に示す] 結果は、テストされたニューロンが実際に顔の概念を学習することを確認しています。

ここに画像の説明を入力

言い換えれば、彼らは顔の認識に最も優れたニューロンを採用し、

  • データセットから最高の信頼性を出力する画像を選択します。
  • 信頼度が最も高い画像 (データセットにない) を数学的に見つけます。

人間の顔の特徴を実際に「キャプチャ」しているのを見るのは楽しいです。
学習は教師なしです。つまり、入力データは画像が顔であるかどうかを示していません。

興味深いことに、ここに生成された猫の頭と人体の「最適な入力」画像があります。

ここに画像の説明を入力

于 2012-06-22T08:45:36.310 に答える
2

これはあなたの質問に対する直接的な回答ではありません。畳み込みニューラル ネットワーク (CNN) について調べてみることをお勧めします。CNN では、学習された概念をほとんど見ることができます。あなたはこの出版物を読むべきです:

Y. LeCun、L. Bottou、Y. Bengio、P. Haffner: Gradient-Based Learning Applied to Document Recognition、IEEE 議事録、86(11):2278-2324、1998 年 11 月

CNN は、「トレーニング可能な特徴抽出器」と呼ばれることがよくあります。実際、CNN はトレーニング可能な係数を使用して 2D フィルターを実装します。これが、最初の層の活性化が通常 2D 画像として表示される理由です (図 13 を参照)。この論文では、著者はネットワークをさらに透過的にするために別のトリックを使用しています: 最後のレイヤーは放射基底関数レイヤー (ガウス関数を含む) です。つまり、各クラスの (調整可能な) プロトタイプまでの距離が計算されます。最後のレイヤーのパラメーターを見ると、学習した概念を実際に確認できます (図 3 を参照)。

ただし、CNN は人工ニューラル ネットワークです。しかし、層は完全には接続されておらず、一部のニューロンは同じ重みを共有しています。

于 2012-05-29T08:59:35.200 に答える