私は、計算リソースが共有される環境で作業しています。つまり、それぞれ数台の Nvidia Titan X GPU を搭載した数台のサーバー マシンがあります。
小規模から中程度のサイズのモデルの場合、12 GB の Titan X は通常、2 ~ 3 人が同じ GPU で同時にトレーニングを実行するのに十分です。モデルが非常に小さいため、単一のモデルでは GPU のすべての計算ユニットを十分に活用できない場合、トレーニング プロセスを次々と実行する場合と比較して、実際には速度が向上する可能性があります。GPU への同時アクセスによって個々のトレーニング時間が遅くなる場合でも、複数のユーザーが GPU で同時にトレーニングできるという柔軟性があると便利です。
TensorFlow の問題は、デフォルトでは、起動時に利用可能な GPU メモリの全量を割り当てることです。小さな 2 層ニューラル ネットワークでも、12 GB の GPU メモリがすべて使用されていることがわかります。
特定のモデルにこれで十分であることがわかっている場合、TensorFlow に 4 GB の GPU メモリのみを割り当てる方法はありますか?