HDFS 内のフォルダー構造は、年次、月次、および日次のデータ処理をサポートする必要があります。過去 16 日間/21 日間の処理を行う必要がある場合、フレームワークはそれをサポートする必要があります。任意のアドホックな日数。日数の指定と開始日を除いて、人間の介入なしに処理を実行する必要があります。HDFS パスの指定は自動化する必要があります。デフォルトはファイルの日次処理です。
フレームワークは、ジョブを開始するためにどのフォルダーを調べる必要があるかを知る必要があるため、Map Reduce コードと統合する必要があります。
現在: 例:
/user/projectname/sourcefiles/datasetname/yyyy/mm/dd/timestamp/filename
しかし、これはすべての要件を満たしているわけではありません。たとえば、過去 16 日間のデータを処理する必要があるとします。
"/user/projectname/sourcefiles/datasetname/yyyy/mm/[01][0-9]/timestamp/filename" 19 日目のファイルも含まれるため、このパスは機能しません。
また、HDFS フォルダー構造のタイムスタンプと Map Reduce ジョブが同期していることをどのように確認しますか?
ありがとうございました。