問題タブ [tensor2tensor]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tensorflow - T2T を使用する Tensorflow は、大量の利用可能なメモリがあっても GPU メモリを割り当てることができません
tensorflow-gpu をピギーバックするマゼンタでカスタム モデルをトレーニングしようとしています。問題は、何があっても、tensorflow が GPU メモリを適切に割り当ててトレーニングを開始できないことです。記録のために、これが私が使用しているコマンドです:
これは、seq_length が 2048 に設定されている場合に問題なく機能し、CPU と GPU の電力を約 25% しか使用しません。私は i7-9600k と RTX 2070 を持っており、8 GB の VRAM を搭載しています。ただし、4096 に増やすと、最小量の GPU 割り当てでも失敗し始めます。ログの (要約) バージョンは次のとおりです。
ここの「完全な」関連ログにペーストビンを添付しました: https://pastebin.com/CQpYdUC4
明らかな疑問を解決するために、いいえ、GPU を使用して他のプログラムを実行していません。また、複数のインスタンスを実行していません。最大 8 GB まで使用できるはずなのに、512 MB の GPU 使用量を割り当てることさえできません。
t2t_trainer.py スクリプトで memory_fraction を 0.2 まで手動で減らしてみました。また、「allow_growth」を設定してみました。これらはどちらも役に立たないようですが、memory_fraction を 0.2 に設定すると使用可能なメモリが減少し、最初は 7 ではなく 1.44 GB を割り当てようとするだけでした。
私は途方に暮れています。記録として、これは Tensorflow 1.14 と CUDA 10.0 です。これは、モデルで必要とされるためです。
python - 「無効な引数: 範囲外の次元 1 のスライス インデックス 0」を追跡する方法。
トレーニング中に例の前処理に使用している方法を実装しました。
私はそれを1つの特定の機能に煮詰めることができました. トレーニング中に使用している場合、ログに次のように表示されます。
単体テストでこの問題を再現できず、同じ関数をエラーなしで使用する別のプロジェクトでこれを再現できません。
スタック トレースが得られないため、何が問題なのか、どこでエラーを探すべきなのかわかりません。
このようなエラーについてテンソルフローからより多くの情報を取得する方法はありますか?