3

DQNネットワークで深層心理の論文を読んでいました。1つを除いて、私はそれについてほとんどすべてを得ました。これまで誰もこの質問をしなかった理由はわかりませんが、とにかく少し奇妙に思えます。

私の質問: DQN への入力は 84*84*4 の画像です。最初の畳み込み層は、8*8 の 32 個のフィルターと stide 4 で構成されています。この畳み込みフェーズの結果を正確に知りたいですか? つまり、入力は 3D ですが、すべて 2D のフィルターが 32 個あります。3 番目の次元 (ゲームの最後の 4 フレームに相当) は畳み込みにどのように関与しますか?

何か案は?ありがとうアミン

4

1 に答える 1

3

3 番目の次元 (最後の 4 つのフレームを表す) は、ネットワークへのチャネルと考えることができます。

RGB の 3 つのチャネルを組み合わせてグレースケール表現を作成すると、同様のシナリオが発生します。この場合、(チャネルごとに) 各畳み込みを個別に実行し、寄与を合計して最終的な出力機能マップを提供します。

DeepMind 関係者は、この論文 (オブジェクト認識に最適なマルチステージ アーキテクチャとは何ですか? ) を参照してください。

于 2016-01-13T20:29:12.907 に答える