Hudi DeltaStreamer パイプラインを実行して、Kafka からのデータを消費し、S3 バケットに書き込みます。source
レコードが重複していることが判明した場合、リストに値を追加してフィールドを更新したいと考えています。(「uuid」はrecordkey
)
既存の記録:
{
"source": [0],
"uuid": "ahdfkhu45k43h"
"message": {
"data": "asqwerty jdksfj",
"message_ts": 1608285358
}
}
}
着信レコード:
{
"source": [1],
"uuid": "ahdfkhu45k43h"
"message": {
"data": "asqwerty jdksfj",
"message_ts": 1608285358
}
}
}
更新された記録:
{
"source": [0, 1],
"uuid": "ahdfkhu45k43h"
"message": {
"data": "asqwerty jdksfj",
"message_ts": 1608285358
}
}
}
DeltaStreamer を使用して上記を達成するにはどうすればよいですか?