Hadoop で毎日増加するデータを処理する方法:
例えば:
初日、入力フォルダー (hadoop/demo など) に 100 万個のファイルがある場合があります。
同じフォルダで 2 日目には、既存の 100 万ファイル + 別の新しい 100 万ファイルから合計 200 万ファイルが増える可能性があります。
同様に 3 日 4 日... 続けます。
私の制約は -> 初日のファイルは次の日に処理されるべきではありません。
(つまり) 新しいファイルが追加されたときに、既に処理されたファイルを再度処理するべきではありません。具体的には、新しく追加されたファイルのみを処理し、古いファイルは無視する必要があります。
この問題を解決できる方法で私を助けてください。
それでも制約を理解していない場合は、制約について詳しく説明できるように、不明な点を教えてください!