私が実行している実験では、Caffe がクラッシュしました。私の実験では、AlexNet モデルを使用して、同じデータのさまざまなサブセットでネットワークをトレーニングします。試行ごとに、その特定のデータ サブセットの LMDB を生成し、ネットワーク .prototxt を変更してパラメーターに一致させます。40回以上の試行で、問題はありませんでした. ただし、ある特定の試行では、227 回のトレーニング反復後に一貫してクラッシュします。表示されるエラーは、単に「バス エラー (コア ダンプ)」です。これは、トレーニングを GPU で行うか CPU で行うかに関係なく発生します。検索しても、このエラーが発生した他の人の結果は得られませんでした。どうやら、ある種のメモリアドレス指定エラーです。64GB RAM と 12GB VRAM を搭載した Nvidia DIGITS ボックスを使用しています。システム モニタは、システムのフル メモリに近い場所を使用していないことを示しています。参考になる場合は、prototxt を提供できます。ただし、データセットが大きすぎてアップロードできません (>20GB)。
I1128 12:50:01.558748 20000 solver.cpp:228] 反復 227、損失 = 5.8273
I1128 12:50:01.558786 20000 solver.cpp:244] 正味出力 #0 のトレーニング: 損失 = 5.8273 (* 1 = 5.8273 損失)
I1128 12 :50:01.558796 20000 sgd_solver.cpp:106] 反復 227、lr = 0.001 バス エラー (コア ダンプ)
この質問によると、私が使用している最新の Intel マシンではバス エラーは発生しません。この問題の原因は何ですか?