私はまだハイブを学んでいます。ハイブのバケットの概念を理解するためにいくつかの本を参照しました。私が学んだことは、バケットを強制すると、バケットの数とまったく同じ数のファイルが作成されるということです。
私の場合、バケット化されたテーブルに 1 日に 5 回、データを段階的にロードします。例: 16 個のバケットを持つテーブルがある場合、ロードごとに、ハッシュ/サンプルに基づいて 16 個のファイルが作成されます。したがって、合計 5 回の実行で 80 個のファイルが作成されます。
My Question is , if i have table with 16 buckets defined on it with 80 files
in HDFS, will it going to give bucketing benefits ?