移行から作成したこの Hudi テーブルがあるため、これには数十億の行があります。移行時には問題はありませんでしたが、ストリーミングを開始してこのテーブルに新しいデータを書き始めるとすぐに、次のエラーが発生しました。
ERROR - error producing records (org.apache.hudi.common.util.queue.BoundedInMemoryExecutor.lambda$null$0(BoundedInMemoryExecutor.java:94)):94
org.apache.parquet.io.ParquetDecodingException: Can not read value at 1 in block 0 in file s3://lake/tables/hudi/usage_fact_cpaas_by_month/organization_id=AAABBBCCC/year=2020/month=12/5235f14e-85b4-488e-99f4-9eb416532795-1_3-134-785_20201216202753.parquet
...
[2020-12-29 16:45:18,284] ERROR - error reading records from queue (org.apache.hudi.common.util.queue.BoundedInMemoryQueue.readNextRecord(BoundedInMemoryQueue.java:201)):201
java.lang.InterruptedException
移行された別のテーブルに対して同じことを行いましたが、問題はありませんでした。両方のテーブルの唯一の違いはパーティションです。
実行は AWS で行われ、Hudi 0.5.3 を使用します。
この問題に直面した人はいますか?これが Hudi の問題なのか AWS の問題なのかはわかりません。