GPU(またはCPU)を備えた畳み込みニューラルネットワークのフレームワークであるCaffeを使用しています。主に CUDA 6.0 を使用しており、大量の画像データセット (ImageNet データセット = 120 万枚の画像) を使用して CNN をトレーニングしており、大量のメモリが必要です。ただし、オリジナルのサブセットに対して小さな実験を実行しています (これにも大量のメモリが必要です)。GPUクラスターにも取り組んでいます。これはコマンド $ nvidia-smi の出力です
+------------------------------------------------------+
| NVIDIA-SMI 331.62 Driver Version: 331.62 |
|-------------------------------+----------------------+----------------------+
| GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. |
|===============================+======================+======================|
| 0 Tesla M2050 Off | 0000:08:00.0 Off | 0 |
| N/A N/A P0 N/A / N/A | 1585MiB / 2687MiB | 99% Default |
+-------------------------------+----------------------+----------------------+
| 1 Tesla M2050 Off | 0000:09:00.0 Off | 0 |
| N/A N/A P1 N/A / N/A | 6MiB / 2687MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 2 Tesla M2050 Off | 0000:0A:00.0 Off | 0 |
| N/A N/A P1 N/A / N/A | 6MiB / 2687MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 3 Tesla M2050 Off | 0000:15:00.0 Off | 0 |
| N/A N/A P1 N/A / N/A | 6MiB / 2687MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 4 Tesla M2050 Off | 0000:16:00.0 Off | 0 |
| N/A N/A P1 N/A / N/A | 6MiB / 2687MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 5 Tesla M2050 Off | 0000:19:00.0 Off | 0 |
| N/A N/A P1 N/A / N/A | 6MiB / 2687MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 6 Tesla M2050 Off | 0000:1A:00.0 Off | 0 |
| N/A N/A P1 N/A / N/A | 6MiB / 2687MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
| 7 Tesla M2050 Off | 0000:1B:00.0 Off | 0 |
| N/A N/A P1 N/A / N/A | 6MiB / 2687MiB | 0% Default |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| Compute processes: GPU Memory |
| GPU PID Process name Usage |
|=============================================================================|
| 0 10242 ../../../build/tools/train_net.bin 1577MiB |
+-----------------------------------------------------------------------------+
しかし、これらの複数のプロセス (たとえば、異なるデータセットで同じ train_net.bin) を実行しようとすると、同じ GPU で実行されているため失敗し、別の GPU を強制的に使用する方法を知りたいです。助けていただければ幸いです。