さまざまなサイズの画像を受信するネットワークを構築する必要があります。サイズ変更やトリミングをしたくないので、完全な畳み込みネットワークを使用しています。
問題は、各画像のサイズが異なるため、ミニバッチを事前に作成できないことです。
1 つの解決策は、目的のミニバッチで最大の画像を取得し、他のすべての画像を同じサイズに合わせてゼロ パディングすることです。ただし、特に画像のサイズが大幅に異なるため (30px から 3000px まで)、時間とメモリの点で効率的ではありません。
私が現在使用している別の解決策は、もちろん異なるサイズの問題を解決する 1 のミニバッチを作成することですが、収束には適していません。
問題は、Keras が複数の入力から勾配を収集し、学習ステップを実行する方法を提供するかどうかです。