ハイブ テーブルが 1 つの列でクラスター化されると、そのバケット化された列のハッシュ関数が実行され、そのデータ行がバケットの 1 つに入れられることを理解しています。そして、バケットごとにファイルがあります。つまり、32 個のバケットがある場合、hdfs には 32 個のファイルがあります。
を複数の列でクラスター化するとはどういう意味ですか? たとえば、テーブルに CLUSTERED BY (continent, country) INTO 32 BUCKETS があるとします。
複数の列がある場合、ハッシュ関数はどのように実行されますか?
いくつのファイルが生成されますか? これまだ32歳?