私たちのワークフローは、AWS Elastic Map Reduceクラスターを使用して、一連のPigジョブを実行し、大量のデータを操作して集計レポートにします。残念ながら、入力データには一貫性がない可能性があり、入力ファイルがないか、0バイトのファイルがパイプラインに渡されないか、パイプラインの一部のステージで生成される可能性があります。
LOADステートメント中に、入力ファイルが見つからないか、入力ファイルのいずれかが0バイトである場合、Pigは見事に失敗します。
これを回避する良い方法はありますか(カスタムローダーを作成せずに、Pig構成またはスクリプトまたはHadoopクラスター構成内で...)?
(AWS Elastic Map Reduceを使用しているため、Pig0.6.0とHadoop0.20でスタックしています。)