apache-spark - 投機が有効になっている Spark では、書き込みはどのように管理されますか?

翻译自：https://stackoverflow.com/questions/65248173 2020-12-11T08:45:04.677

121 次

-1

HDFS の特定の場所にデータを書き込む投機 (spark.speculation=true) が有効になっている Spark 2.x アプリケーションがあるとします。

タスク (HDFS にデータを書き込む) に時間がかかる場合、Spark は別のエグゼキューターに同じタスクのコピーを作成し、両方のジョブが並行して実行されます。

Spark はこれをどのように処理しますか? 明らかに、両方のタスクが同時に同じファイルの場所にデータを書き込もうとするべきではありません (この場合は発生しているようです)。

どんな助けでも大歓迎です。

ありがとう

1 に答える 1