AlphaGo Zero のネットワーク構造について読んでいて、このチートシートに出くわしました。
スキップ接続が次元的にどのように機能するかを理解するのに苦労しています。
具体的には、各残りのレイヤーは、受け取った入力の 2 つのスタックされたコピーで終わるようです。これにより、入力サイズがネットワークの深さとともに指数関数的に増加することはありませんか?
また、conv2d フィルターの出力チャネル サイズを変更することで、これを回避できますか? in_C と out_C は pytorch で同じである必要はありませんが、これらの値が異なることの意味を理解するのに十分ではありません。