0

移行から作成したこの Hudi テーブルがあるため、これには数十億の行があります。移行時には問題はありませんでしたが、ストリーミングを開始してこのテーブルに新しいデータを書き始めるとすぐに、次のエラーが発生しました。

ここに画像の説明を入力

ERROR - error producing records (org.apache.hudi.common.util.queue.BoundedInMemoryExecutor.lambda$null$0(BoundedInMemoryExecutor.java:94)):94
org.apache.parquet.io.ParquetDecodingException: Can not read value at 1 in block 0 in file s3://lake/tables/hudi/usage_fact_cpaas_by_month/organization_id=AAABBBCCC/year=2020/month=12/5235f14e-85b4-488e-99f4-9eb416532795-1_3-134-785_20201216202753.parquet

...

[2020-12-29 16:45:18,284] ERROR - error reading records from queue (org.apache.hudi.common.util.queue.BoundedInMemoryQueue.readNextRecord(BoundedInMemoryQueue.java:201)):201
java.lang.InterruptedException

移行された別のテーブルに対して同じことを行いましたが、問題はありませんでした。両方のテーブルの唯一の違いはパーティションです。

実行は AWS で行われ、Hudi 0.5.3 を使用します。

この問題に直面した人はいますか?これが Hudi の問題なのか AWS の問題なのかはわかりません。

4

1 に答える 1

0

エグゼキューターのログを調べたところ、スキーマ エラーがあったことがわかりました。

于 2020-12-30T12:30:36.003 に答える