私たちのシステムには、特定の HDFS ディレクトリに対して実行される複数の pig スクリプトがあります。pig スクリプトはさまざまな時間に実行でき、定期的に実行するようにスケジュールされています。
複数の実行のために同じディレクトリに豚のスクリプトを指す方法はありますが、以前に見たことのない新しいファイルのみを処理するようにしてください。
ローダーにカスタム PathFilter を使用することを考えていましたが、車輪を再発明するのではなく、これを行う方法が既にあるかどうかを確認することにしました (!)。