-1

HDFS の特定の場所にデータを書き込む投機 (spark.speculation=true) が有効になっている Spark 2.x アプリケーションがあるとします。

タスク (HDFS にデータを書き込む) に時間がかかる場合、Spark は別のエグゼキューターに同じタスクのコピーを作成し、両方のジョブが並行して実行されます。

Spark はこれをどのように処理しますか? 明らかに、両方のタスクが同時に同じファイルの場所にデータを書き込もうとするべきではありません (この場合は発生しているようです)。

どんな助けでも大歓迎です。

ありがとう

4

1 に答える 1