HDFS の特定の場所にデータを書き込む投機 (spark.speculation=true) が有効になっている Spark 2.x アプリケーションがあるとします。
タスク (HDFS にデータを書き込む) に時間がかかる場合、Spark は別のエグゼキューターに同じタスクのコピーを作成し、両方のジョブが並行して実行されます。
Spark はこれをどのように処理しますか? 明らかに、両方のタスクが同時に同じファイルの場所にデータを書き込もうとするべきではありません (この場合は発生しているようです)。
どんな助けでも大歓迎です。
ありがとう