HDFS から何百万ものレコードを読み取り、それらを処理し、AVRO 形式で HDFS に書き戻す Spark ジョブがあります。多くのファイル (書き込まれた) が .avro.tmp 状態のままであることが観察されました。
AVRO 形式でデータを書き込むために Kite SDK を使用しています。環境はCDH5.5です。
レコードの読み取りとエグゼキュータへの送信が完了するとすぐに、Spark ジョブが終了するためである可能性があります (実際に書き込みを行うのはどちらですか?)。
その場合、すべての .tmp が .avro に変換されるまでジョブが終了しないようにするにはどうすればよいですか? それとも他に何が原因でしょうか?