cuda - クラスターで別の GPU を強制的に使用するにはどうすればよいですか?

Question

GPU（またはCPU）を備えた畳み込みニューラルネットワークのフレームワークであるCaffeを使用しています。主に CUDA 6.0 を使用しており、大量の画像データセット (ImageNet データセット = 120 万枚の画像) を使用して CNN をトレーニングしており、大量のメモリが必要です。ただし、オリジナルのサブセットに対して小さな実験を実行しています (これにも大量のメモリが必要です)。GPUクラスターにも取り組んでいます。これはコマンド $ nvidia-smi の出力です

+------------------------------------------------------+                       
| NVIDIA-SMI 331.62     Driver Version: 331.62         |                       
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla M2050         Off  | 0000:08:00.0     Off |                    0 |
| N/A   N/A    P0    N/A /  N/A |   1585MiB /  2687MiB |     99%      Default |
+-------------------------------+----------------------+----------------------+
|   1  Tesla M2050         Off  | 0000:09:00.0     Off |                    0 |
| N/A   N/A    P1    N/A /  N/A |      6MiB /  2687MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   2  Tesla M2050         Off  | 0000:0A:00.0     Off |                    0 |
| N/A   N/A    P1    N/A /  N/A |      6MiB /  2687MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   3  Tesla M2050         Off  | 0000:15:00.0     Off |                    0 |
| N/A   N/A    P1    N/A /  N/A |      6MiB /  2687MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   4  Tesla M2050         Off  | 0000:16:00.0     Off |                    0 |
| N/A   N/A    P1    N/A /  N/A |      6MiB /  2687MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   5  Tesla M2050         Off  | 0000:19:00.0     Off |                    0 |
| N/A   N/A    P1    N/A /  N/A |      6MiB /  2687MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   6  Tesla M2050         Off  | 0000:1A:00.0     Off |                    0 |
| N/A   N/A    P1    N/A /  N/A |      6MiB /  2687MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   7  Tesla M2050         Off  | 0000:1B:00.0     Off |                    0 |
| N/A   N/A    P1    N/A /  N/A |      6MiB /  2687MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Compute processes:                                               GPU Memory |
|  GPU       PID  Process name                                     Usage      |
|=============================================================================|
|    0     10242  ../../../build/tools/train_net.bin                  1577MiB |
+-----------------------------------------------------------------------------+

しかし、これらの複数のプロセス (たとえば、異なるデータセットで同じ train_net.bin) を実行しようとすると、同じ GPU で実行されているため失敗し、別の GPU を強制的に使用する方法を知りたいです。助けていただければ幸いです。

cuda - クラスターで別の GPU を強制的に使用するにはどうすればよいですか?

0 に答える 0

Related

Reference