0

Hudi DeltaStreamer パイプラインを実行して、Kafka からのデータを消費し、S3 バケットに書き込みます。sourceレコードが重複していることが判明した場合、リストに値を追加してフィールドを更新したいと考えています。(「uuid」はrecordkey)

既存の記録:

{
    "source": [0],
    "uuid": "ahdfkhu45k43h"
    "message": {
         "data": "asqwerty jdksfj",
         "message_ts": 1608285358
        }
    }
}

着信レコード:

{
    "source": [1],
    "uuid": "ahdfkhu45k43h"
    "message": {
         "data": "asqwerty jdksfj",
         "message_ts": 1608285358
        }
    }
}

更新された記録:

{
    "source": [0, 1],
    "uuid": "ahdfkhu45k43h"
    "message": {
         "data": "asqwerty jdksfj",
         "message_ts": 1608285358
        }
    }
}

DeltaStreamer を使用して上記を達成するにはどうすればよいですか?

4

0 に答える 0