GPU コンピューティングを使用して、バックプロパゲーションを使用して独自のニューラル ネット ライブラリを作成しています。トレーニングセットがGPUメモリに収まるかどうかを確認する必要がないことを普遍的にしたい。
トレーニング セットが大きすぎて GPU メモリに収まらない場合、ニューラル ネットワークをどのようにトレーニングしますか? ホストのRAMに収まると思います。
最初のピースでトレーニング反復を実行し、デバイスで割り当てを解除して、2 番目のピースをデバイスに送信し、その上でトレーニングする必要があります...そして、勾配の結果を合計します。
PCIe バスを介してすべてのデータをプッシュする必要がある場合、遅すぎませんか? もっと良いアイデアはありますか?