7

Vgg16を使用してモデルを微調整しようとしてcolaboratoryいますが、GPU でトレーニングしているときにこのエラーが発生しました。

OOM when allocating tensor of shape [7,7,512,4096]

INFO:tensorflow:Error reported to Coordinator: <class 'tensorflow.python.framework.errors_impl.ResourceExhaustedError'>, OOM when allocating tensor of shape [7,7,512,4096] and type float
     [[Node: vgg_16/fc6/weights/Momentum/Initializer/zeros = Const[_class=["loc:@vgg_16/fc6/weights"], dtype=DT_FLOAT, value=Tensor<type: float shape: [7,7,512,4096] values: [[[0 0 0]]]...>, _device="/job:localhost/replica:0/task:0/device:GPU:0"]()]]

Caused by op 'vgg_16/fc6/weights/Momentum/Initializer/zeros', defined at:

私のvmセッションにもこの出力があります:

    --- colab vm info ---
python v=3.6.3
tensorflow v=1.4.1
tf device=/device:GPU:0
model name  : Intel(R) Xeon(R) CPU @ 2.20GHz
model name  : Intel(R) Xeon(R) CPU @ 2.20GHz
MemTotal:       13341960 kB
MemFree:         1541740 kB
MemAvailable:   10035212 kB

tfrecordはちょうど118個の256x256 JPGですfile size <2MB

回避策はありますか? GPUではなくCPUを使用すると機能します

4

4 に答える 4

0

私の場合、おそらく Colaboratory VM がより多くのリソースを提供できなかったため、Ami が提供するソリューションが優れていても解決しませんでした。

検出段階で OOM エラーが発生しました (モデルのトレーニングではありません)。回避策で解決し、検出のために GPU を無効にしました。

config = tf.ConfigProto(device_count = {'GPU': 0})
sess = tf.Session(config=config)
于 2018-02-21T12:44:31.357 に答える