概念の基本的な証明として、入力 x、バイアス b、出力 y、S サンプル、重み v、および t 教師信号で K クラスを分類するネットワークで、一致するサンプルが k クラスの下にある場合、t(k) は 1 に等しくなります。
x_(is) が s_(th) サンプルの i_(th) 入力フィーチャを表すとします。v_(ks) は、s_(th) サンプル内のすべての入力から k_(th) 出力への接続の重みを保持するベクトルを表します。t_(s) は、s_(th) サンプルの教師信号を表します。
上記の変数を拡張して複数のサンプルを考慮する場合、変数 z_(k)、アクティベーション関数 f(.) を宣言し、corss エントロピーをコスト関数として使用しながら、以下の変更を適用する必要があります 。
通常、学習ルールでは、デルタ ( t_(k) - y_(k) ) が常に含まれますが、なぜデルタがこの式に表示されないのですか? 何か見逃したことがありますか、または表示されるデルタ ルールは必須ではありませんか?