問題タブ [horovod]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
0 に答える
86 参照

apache-spark - Databrick Spark を使用した各ワーカー ノードでの horovod ロード データのエラー

Databricks から GPU クラスター (p2.xlarge) で horovod.torch を実行しようとしています。

horovod は AllReduce を使用してノード間でパラメーターを通信するため、各ワーカー ノードはデータセット全体を読み込み、異なるパーティションで作業する必要があります。各反復の後、すべてのノードは AllReduce によって他のノードからパラメーター値を取得し、それらの平均を取得して独自のパラメーターを更新します。

私の理解では、これは SPMD (single program multiple data) です。これは、各ワーカー ノードが同じデータセット全体をロードする必要があるためです。

各ワーカーノードからデータセット全体をロードする必要がありますよね?

私のコード:

しかし、私はエラーが発生しました:

例外: ブロードキャスト変数、アクション、または変換から SparkContext を参照しようとしているようです。SparkContext はドライバーでのみ使用でき、ワーカーで実行されるコードでは使用できません。詳細については、SPARK-5063 を参照してください。

スパークは複数のコンテキストを許可していないようです?

また、各ワーカーで新しいローカル Spark セッションを作成しようとしました。

エラーが発生しました:

Spark を使用して各ワーカー ノードにデータをロードする方法は?

spark が他のノードが独自の sparksession を作成することを許可しない場合、 horovod の各ワーカー ノードにデータをロードする方法は?

0 投票する
0 に答える
141 参照

anaconda3 - horovod のインストールが anaconda3 によって失敗しました

https://github.com/horovod/horovod/blob/master/docs/conda.rstの手順で Horovod をインストールすると、終了コード 137 に遭遇します

これは Dockerfile の出力です。

=> => # トランザクションを検証中: ...作業中... 完了
=> => # トランザクションを実行中: ...作業中... => # d CUDA エンド ユーザー ライセンス契約 (EULA) の条件: https://docs.nvidia.com/cuda/eula/index.html\n'
=> => # b'cuDNN conda をダウンロードして使用するパッケージ、NVIDIA cuDNN EULA の条件に同意する -\nh => => # ttps://docs.nvidia.com/deeplearning/cudnn/sla/index.html\n'
=> => # done

エグゼキュータが [/bin/sh -c conda env create --file /tmp/environment.yml --force] の実行に失敗しました: 終了コード: 137