28

このブログ投稿The Unreasonable Effectiveness of Recurrent Neural Networksで、Andrej Karpathy はニューラル ネットワーク ベースの機械学習の将来の方向性について言及しています。

注意の概念は、ニューラル ネットワークにおける最も興味深い最近のアーキテクチャの革新です。[...] メモリ アドレッシングのソフト アテンション スキームは、モデルを完全に微分可能に保つので便利ですが、残念ながら、アテンドできるすべてのものがアテンドされるため (ただしソフトに) 効率が犠牲になります。これは、特定のアドレスを指すのではなく、代わりにメモリ全体のすべてのアドレスの全体的な分布を定義する C のポインターを宣言し、ポインターを逆参照すると、ポイントされたコンテンツの加重合計が返されると考えてください (これはコストが高くなります)。手術!)。これにより、複数の作成者がソフト アテンション モデルをハード アテンション モデルに交換し、注目するメモリの特定のチャンクをサンプリングするようになりました (たとえば、すべてのセルからある程度の読み取り/書き込みではなく、一部のメモリセルに対する読み取り/書き込みアクション)。このモデルは、はるかに哲学的に魅力的で、スケーラブルで効率的ですが、残念なことに、区別することもできません。

ポインターの比喩は理解できたと思いますが、注意とは正確には何で、難しいものはなぜ微分できないのでしょうか?

ここで注意についての説明を見つけましたが、まだソフト/ハードの部分について混乱しています.

4

1 に答える 1