問題タブ [horovod]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
apache-spark - Databrick Spark を使用した各ワーカー ノードでの horovod ロード データのエラー
Databricks から GPU クラスター (p2.xlarge) で horovod.torch を実行しようとしています。
horovod は AllReduce を使用してノード間でパラメーターを通信するため、各ワーカー ノードはデータセット全体を読み込み、異なるパーティションで作業する必要があります。各反復の後、すべてのノードは AllReduce によって他のノードからパラメーター値を取得し、それらの平均を取得して独自のパラメーターを更新します。
私の理解では、これは SPMD (single program multiple data) です。これは、各ワーカー ノードが同じデータセット全体をロードする必要があるためです。
各ワーカーノードからデータセット全体をロードする必要がありますよね?
私のコード:
しかし、私はエラーが発生しました:
例外: ブロードキャスト変数、アクション、または変換から SparkContext を参照しようとしているようです。SparkContext はドライバーでのみ使用でき、ワーカーで実行されるコードでは使用できません。詳細については、SPARK-5063 を参照してください。
スパークは複数のコンテキストを許可していないようです?
また、各ワーカーで新しいローカル Spark セッションを作成しようとしました。
エラーが発生しました:
Spark を使用して各ワーカー ノードにデータをロードする方法は?
spark が他のノードが独自の sparksession を作成することを許可しない場合、 horovod の各ワーカー ノードにデータをロードする方法は?
anaconda3 - horovod のインストールが anaconda3 によって失敗しました
https://github.com/horovod/horovod/blob/master/docs/conda.rstの手順で Horovod をインストールすると、終了コード 137 に遭遇します
これは Dockerfile の出力です。
=> => # トランザクションを検証中: ...作業中... 完了
=> => # トランザクションを実行中: ...作業中... => # d CUDA エンド ユーザー ライセンス契約 (EULA) の条件: https://docs.nvidia.com/cuda/eula/index.html\n'
=> => # b'cuDNN conda をダウンロードして使用するパッケージ、NVIDIA cuDNN EULA の条件に同意する -\nh => => # ttps://docs.nvidia.com/deeplearning/cudnn/sla/index.html\n'
=> => # done
エグゼキュータが [/bin/sh -c conda env create --file /tmp/environment.yml --force] の実行に失敗しました: 終了コード: 137