問題タブ [hive-partitions]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Hive のパーティション列での Group By のパフォーマンス
ハイブのパーティション列として col4 を持つ 4 列のテーブルがあります。これは、5 時間ごとに最大 900 万行が挿入される巨大なテーブルです。このテーブルは他のレポートにも使用されているため、デザインを変更できないという制限があります。
ユース ケースの 1 つとして、col4 の各値のデータ ポイントを特定するルックアップ テーブルを作成しようとしています。
質問:
パーティション化された列で Group By を実行すると、パフォーマンスが低下しますか? この場合は Col4 です。
col4 で Group By を実行しても、完全なテーブル スキャンになりますか?
最小限のフル テーブル スキャンでパーティション分割された列のルックアップを作成する最良の方法は何ですか?
この投稿に出くわしましたが、Impala 用でした。Impala と Hive が同じ MR エンジンを内部でデータ処理に使用しているかどうかはわかりません。したがって、これを新しい質問として投稿してください。
hiveql - ハイブパーティションテーブルを複製する方法
日付列を持つテーブルがあり、その日付列でハイブにパーティションが作成されます。現在、300 個のパーツ ファイルがあり、毎日 1 つのレコードのみが挿入され、テーブルには 300 個のレコードが含まれているとします。ここで、すべてのパーティション ファイルを 1 つにマージして複製テーブルを作成したいと考えています。どうすればそれを行うことができますか 事前に感謝します