外部テーブル パーティションの最適なサイズはどれくらいですか? 年/月/日ごとにテーブルを分割することを計画しており、毎日約 2GB のデータを取得しています。
質問する
2762 次
3 に答える
2
最適なテーブルのパーティション分割は、テーブルの使用シナリオに一致するものです。パーティショニングは、以下に基づいて選択する必要があります。
- データがどのようにクエリされているか (主に毎日のデータで作業する必要がある場合は、日付ごとに分割します)。
- データがどのようにロードされているか (並列スレッドは、オーバーラップせずに独自のパーティションをロードする必要があります)
2Gb は、使用シナリオにもよりますが、1 つのファイルでも多すぎません。(年、月、日) のような不必要で複雑で冗長なパーティションは避けてください。この場合、パーティションのプルーニングには日付で十分です。
于 2016-06-01T19:08:39.007 に答える
0
Hive パーティショニングは、データがまばらな場合に最も効果的です。スパースとは、データが内部的に年、月、日などの目に見えるパーティションを持っていることを意味します。
あなたの場合、毎日 2 GB のデータがあり、処理するには大きすぎないため、日付によるパーティション分割はあまり意味がありません。週または月ごとにパーティション化すると、クエリ時間が最適化され、小さなパーティション ファイルがあまり作成されないため、より理にかなっています。
于 2019-07-24T10:28:51.370 に答える