cuml ライブラリと GPU を使用して機械学習トレーニングを高速化するために、nvidia Rapids で python 3 を使用しています。
私の scrips も GPU トレーニング (tf 経由) で keras を使用しており、CUML を使用しようとする段階に達すると、メモリ エラーが発生します。これは、TF が GPU メモリを解放しないために発生していると思われます (nvidia-smi を見ると)、すべてのメモリが割り当てられていることがわかります。
これは、cuml モデルのトレーニングに使用するコードです
import cuml
from cuml import LinearRegression
lr = LinearRegression()
lr.fit(encoded_data, y_train)
これは私が得るエラーです
[2] cuMemAlloc を呼び出すと、CUDA_ERROR_OUT_OF_MEMORY が発生する
encoded_data と y_train は numpy 配列、encoded_data は浮動小数点数の n*m 配列、y_train はラベルである整数の n*1 ベクトルです。どちらも sklearn ロジスティック回帰でトレーニングすると正常に動作します。
1. トレーニングしたすべての tf モデルを失うことなく、同じ GPU (推奨) を使用します (実際には tf モデルが必要とするよりも多くのメモリがありますが、tf プロセスはまだすべてのメモリを使用しています)。 CUML 計算用の 2 番目の GPU (RAPIDS CUML モデル トレーニングを実行する GPU を選択する方法が見つかりません。