特に、LSTM レイヤーが (たとえば) 50 個のセルを持つことの意味について混乱しています。このすばらしいブログ投稿の次の LSTM ブロックを検討してください。
私の入力xt
が(20,)
ベクトルで、隠れ層ht
が(50,)
ベクトルだとします。セル状態が新しい隠れ状態になる前にCt
点単位の操作 (点単位tanh
および) のみを受けることを考えると、それを収集します。ここで、忘却ゲートは、隠れ層と連結された入力を調べます。これはベクトルになります。つまり、忘却ゲートは のような形状の重み行列を持たなければなりません。*
Ct.shape = ht.shape = (50,)
(20+50,) = (70,)
(50, 70)
dot(W, [xt, ht]).shape = (50,)
この時点での私の質問は、いつ 50 セルの LSTM ブロックを見ているのCt.shape = (50,)
でしょうか? それとも、LSTM レイヤーに 50 個のセルがあることの意味を誤解していますか?