問題タブ [lstm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - pybrain LSTM 層バッファ変数
pybrain LSTM レイヤーには、値を格納するために使用されるこれらのバッファーがあります。
これらの変数の目的を説明できる人はいますか? LSTM レイヤーのアクティベーションを取得しようとしています。どの変数を使用する必要がありますか?
machine-learning - LSTM ネットワーク学習
独自の LSTM (長期短期記憶) ニューラル ネットワークをプログラムしようとしました。基本的な機能が動作していることを確認したいと思います。時間 BPTT アルゴリズムによる逆伝播を実装して、単一のセル ネットワークをトレーニングしました。
単一セルの LSTM ネットワークは単純なシーケンスを学習できるべきですか、それとも複数のセルが必要ですか? ネットワークは、1 0 0 0 1 0 0 0 1 0 0 0 1 などの単純なシーケンスを学習できないようです。
シーケンス 1 と 0 を 1 つずつ順番にネットワークに送信し、それをフィードします。シーケンスの各出力を記録します。
LSTM セルを介してシーケンス全体を実行した後、平均誤差信号をセルに戻し、重みの変更をセル内部の別のコレクションに保存し、すべてのエラーを 1 つずつ実行して新しい重みを計算した後、各エラーの後、セル内の各重みについて、新しい重みを平均して新しい重みを取得します。
私は何か間違ったことをしていますか?アドバイスをいただければ幸いです。
どうもありがとう!
artificial-intelligence - LSTM ネットワークは忘れるタイミングをどのように認識していますか?
LSTM ネットワークは、学習した依存関係を忘れるのに適した時期をどのように知るのでしょうか?
neural-network - theano を使用して LSTM でマルチラベル学習を実行するには?
各ドキュメントに複数のラベルが付いたテキスト データがあります。このデータセットに対して Theano を使用して LSTM ネットワークをトレーニングしたいと考えています。http://deeplearning.net/tutorial/lstm.htmlに出くわしましたが、バイナリ分類タスクを容易にするだけです。続行する方法について誰かが何か提案があれば、それは素晴らしいことです。最初の実行可能な方向性が必要なだけです。取り組むことができます。
ありがとう、アミット
javascript - シーケンスを使用してニューラルネットをトレーニングします (現在収束していません)
再帰的な性質のため、一度に 1 つの項目を入力することで、入力ニューロンが 1 つしかない lstm をシーケンスでアクティブにすることができました。
ただし、同じ手法でネットワークをトレーニングしようとすると、収束しません。トレーニングは永遠に続きます。
これが私がやっていることです。自然言語の文字列をバイナリに変換してから、1桁ずつ入力しています。バイナリに変換する理由は、ネットワークが 0 から 1 の間の値しかとらないためです。
入力ニューロンと同じ数の値の配列 (この場合は [0]) でトレーニングすると、トレーニングがうまくいくことがわかります。
各桁を個別に渡すことができると思いますが、各桁に対して個別の理想的な出力が得られます。そして、別のトレーニング セットの別の理想的な出力で数字が再び表示されると、たとえば 0 がクラス 0 と 1 になる可能性があるため、収束しません。この仮定が間違っているかどうか教えてください。
アクティブ化されたときに同様のシーケンスが同様に分類されるように、この lstm をシーケンスでトレーニングするにはどうすればよいですか?
これが私のトレーナーファイル全体です: https://github.com/theirf/synaptic/blob/master/src/trainer.js
ワーカーでネットワークをトレーニングするコードは次のとおりです。
machine-learning - データセットの PCA からの結論
シーケンス ラベル付け用のデータ セットがあります。データセットで(x軸とy軸に2つの主成分を使用して)PCAを実行したところ、次のようになりました。
LSTM ネットワークを使用して上記のデータセットを分類した後、LSTM の隠れ層からアクティベーションを抽出することにしました。私が得たものは下の図のようなものです:
私の質問は、両方の結果を比較して、どのような結論を導き出せるかということです。元のデータセットの機能は、LSTM 分類器を介して実行した後、自己組織化されたと言っても過言ではありませんか?
neural-network - LSTM が固定点で安定するのはなぜですか?
私はシーケンスによって LSTM をトレーニングし、いくつかの出力シーケンスを合成できるかどうかをテストしようとしましたが、興味深いことに残念なことに、非常に迅速に、つまり 2 つの時間ステップの後、固定出力に安定し、まったく同じ値のシーケンスを意味します。 .
今、初期化を変更しましたが、出力は常に 2 つのステップの後と同じです。トレーニングまたはサンプリングで何が間違っている可能性がありますか?
プログラム全体が大きすぎてここに投稿できないため、これ以上のコンテキストを提供できず申し訳ありません。