0

Tealium イベント ストリームを介して受信した Json ファイルに Consume Kafka を使用して、データを HDFS に消費するエンド ツー エンド フローを作成しています。

現在、私は使用しています

Consume Kafka -> Evaluate Json Path -> Jolttransform Json -> Merge Content -> Evaluate Json Path -> Update attribute -> PutHDFS ->MoveHDFS

要件は、1 日スプール全体の JSON データを、postdate 属性を参照する単一のファイルに読み取り (エポックからYYYYMMDDSSタイムスタンプの前に変換)、毎日データを読み取って単一の出力ファイルにマージし、最後に POST_DATE フィールドに関連するタイムスタンプに従ってファイルの名前を変更することです。毎日のファイルを区別する。

現在の日付の出力フォルダーには、現在の日付処理ファイルのみが含まれている必要があり、以前の日付のすべての完成した出力ファイルは別のフォルダーに移動する必要があります。

MoveHDFS で作業して hdfs フォルダーを再帰的に検索し、現在の日付と等しくない完了した出力ファイルを移動して別のフォルダーに移動する方法を教えてください。

4

1 に答える 1

0

現在の流れはうまくいきました。Kafka を消費 -> Json パスを評価 -> Jolttransform Json -> コンテンツをマージ -> Json パスを評価 -> 属性を更新 -> PutHDFS ---> マージ ファイルを作成します。

上記のフローが完了したら、別のフローを作成して、処理済みのマージ ファイルを受け取り、listhdfs->fethchdfs->updateattribute->puthdfs で再処理します。

listhdfs で、消費するまでの最小ファイル経過時間の待機時間を設定します。これにより、プロセスはファイルを再帰的に検索し、updateattribute を使用して親フォルダーに従ってフォルダーを再作成し、プロセス ファイルを再利用できます。

于 2019-10-24T19:52:56.647 に答える