問題タブ [hive-partitions]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

139 問題

0 投票する

1 に答える

1181 参照

hadoop - Hive のパーティション列での Group By のパフォーマンス

ハイブのパーティション列として col4 を持つ 4 列のテーブルがあります。これは、5 時間ごとに最大 900 万行が挿入される巨大なテーブルです。このテーブルは他のレポートにも使用されているため、デザインを変更できないという制限があります。

ユースケースの 1 つとして、col4 の各値のデータポイントを特定するルックアップテーブルを作成しようとしています。

質問:

パーティション化された列で Group By を実行すると、パフォーマンスが低下しますか? この場合は Col4 です。
col4 で Group By を実行しても、完全なテーブルスキャンになりますか?
最小限のフルテーブルスキャンでパーティション分割された列のルックアップを作成する最良の方法は何ですか?

この投稿に出くわしましたが、Impala 用でした。Impala と Hive が同じ MR エンジンを内部でデータ処理に使用しているかどうかはわかりません。したがって、これを新しい質問として投稿してください。

2019-09-10T12:07:40.440

0 投票する

1 に答える

79 参照

hiveql - ハイブパーティションテーブルを複製する方法

日付列を持つテーブルがあり、その日付列でハイブにパーティションが作成されます。現在、300 個のパーツファイルがあり、毎日 1 つのレコードのみが挿入され、テーブルには 300 個のレコードが含まれているとします。ここで、すべてのパーティションファイルを 1 つにマージして複製テーブルを作成したいと考えています。どうすればそれを行うことができますか事前に感謝します

hiveql hive-partitions

2019-10-11T13:34:55.287

1 2 3 4 5 6 7 8 9 10

問題タブ [hive-partitions]

hadoop - Hive のパーティション列での Group By のパフォーマンス

hiveql - ハイブパーティションテーブルを複製する方法

Reference