問題タブ [amd-rocm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - GPU 上の Tensorflow モデル: 「要求された形状に [不当に大きな数] の値があります」
AMD GPU (AMD Vega 20、Tensorflow 2.2.0、Keras 2.4.3) で Keras ラッパーを使用して単純な順次 Tensorflow モデルを実行しようとしていますが、適合しようとすると奇妙な問題に直面します:
tensorflow.python.framework.errors_impl.InvalidArgumentError: Input to reshape is a tensor with 15 values, but the requested shape has 15976860750
入力テンソルの値の数としてバッチサイズを取っているようで、どういうわけか「要求された形状」のサイズが爆発します。モデルの定義は次のとおりです。
GPU がインストールされていないマシンで、CPU だけで実行すると、まったく同じモデルが正常に動作します。また、NVidia GPU (Tensorflow 1.15.3 および Keras 2.3.1) を実行している別のマシンの CUDA11 実装でもうまく機能します。
AMD GPU が存在する場合にのみ、この後の Tensorflow バージョンで GPU メモリ サイズを入力サイズとして要求する理由がわかりません。ここで構成を間違えている可能性があることは明らかですか?
編集:以下のコメントに応えて、「要求されたサイズ」を微調整した後、考えられているようにGPUメモリではなくバッチサイズに何らかの形で関連しています(数値は明らかに偶然の一致でした-バッチサイズを10に設定すると「要求されたサイズ」が得られます1092616192 の代わりに)。入力は、各行に 8 つの値を持つ単純なパンダ データフレームです (input_dim で定義されており、前述のように、これは他のマシンの同じ実装でも問題なく機能します)。
エラーは、トレーニングのための fit() の呼び出し中に発生します。出力から、このようにクラッシュする前に約 5 エポックを取得することがわかります。トレースバックは次のとおりです(「〜/ rocm/keras」は、この環境用にインストールされたpythonパッケージがある場所へのパスです)
docker - ubuntu に tensorflow-rocm をインストールする方法
私は AMD GPU で tensorflow を作成しようとしています。何日も検索して試してみましたが、最終的には tensorflow-rocm で出てきました。結果はありませんでした。最後に試したチュートリアルはこれでした
https://github.com/RadeonOpenCompute/ROCm-docker/blob/master/quick-start.md
Dockerコンテナが正常にインストールされたことを確認する必要がある最後のステップを除いて、すべての指示はうまく機能しました。
しかし、「コマンドが見つかりません」と表示されます
そして他のコマンド
あなたがレンダーグループにいることを確認してください。私は間違いなく確信しています!
ROCmのWebサイトをもう一度見てみると、私のものであるubuntu 20.4をサポートしていることがわかりましたが、5.11を持っていたときにカーネル5.8を使用し、デフォルトのカーネルを復元すると5.4がインストールされました!! これは問題でしょうか?
docker を試すのは初めてであることに注意してください :/ 誰かが tensorflow-rocm をインストールするより良い方法を知っていれば、私は素晴らしいでしょう