0

ハイブでのパーティショニングとバケット化の違いがよくわかりません。例を挙げて詳細を教えていただければ幸いです。

4

1 に答える 1

8

ここにバケットとパーティショニングの良い違いがあります。

基本的に、パーティショニングとバケット化の両方で、スライスされていないデータよりもはるかに効率的にクエリを実行するためにデータをスライスします。主な違いは、パーティション化の場合、データが変更されるとスライスの数が変化し続けることですが、バケット化では、テーブルの作成中に指定されたスライスの数が固定されます。

バケット化は、ハッシュ アルゴリズムを使用してから、バケット数のモジュロを使用して行われます。したがって、行はいずれかのバケットに挿入される可能性があります。バケット化は、データのサンプリングだけでなく、2 つのデータ セットをより効果的に結合するためにも使用できます。

于 2013-10-06T19:23:31.023 に答える