Tealium イベント ストリームを介して受信した Json ファイルに Consume Kafka を使用して、データを HDFS に消費するエンド ツー エンド フローを作成しています。
現在、私は使用しています
Consume Kafka -> Evaluate Json Path -> Jolttransform Json -> Merge Content -> Evaluate Json Path -> Update attribute -> PutHDFS ->MoveHDFS
要件は、1 日スプール全体の JSON データを、postdate 属性を参照する単一のファイルに読み取り (エポックからYYYYMMDDSS
タイムスタンプの前に変換)、毎日データを読み取って単一の出力ファイルにマージし、最後に POST_DATE フィールドに関連するタイムスタンプに従ってファイルの名前を変更することです。毎日のファイルを区別する。
現在の日付の出力フォルダーには、現在の日付処理ファイルのみが含まれている必要があり、以前の日付のすべての完成した出力ファイルは別のフォルダーに移動する必要があります。
MoveHDFS で作業して hdfs フォルダーを再帰的に検索し、現在の日付と等しくない完了した出力ファイルを移動して別のフォルダーに移動する方法を教えてください。