0

私はまだハイブを学んでいます。ハイブのバケットの概念を理解するためにいくつかの本を参照しました。私が学んだことは、バケットを強制すると、バケットの数とまったく同じ数のファイルが作成されるということです。

私の場合、バケット化されたテーブルに 1 日に 5 回、データを段階的にロードします。例: 16 個のバケットを持つテーブルがある場合、ロードごとに、ハッシュ/サンプルに基づいて 16 個のファイルが作成されます。したがって、合計 5 回の実行で 80 個のファイルが作成されます。

My Question is , if i have table with 16 buckets defined on it with 80 files 
in HDFS, will it going to give bucketing benefits ?
4

1 に答える 1

1

増分ロードごとに異なるテーブルを作成しますか?

どの Hadoop ディストリビューションを使用していますか?

私は同じ戦略を使用しており、すべての増分読み込みで、定義したのと同じ数のバケットが生成 (およびオーバーライド) されます。

ハイブテーブルがハイブユーザーで作成され、別のユーザー(hdfs)で作成されたため、アクセス許可の問題がある場合、ファイルが重複しています。

/user/hive/warehouse ディレクトリでテーブル ディレクトリの所有者/権限を確認し、その後サブディレクトリで同じ (所有者/権限) を確認します。

于 2013-09-25T13:10:15.260 に答える