2

外部テーブル パーティションの最適なサイズはどれくらいですか? 年/月/日ごとにテーブルを分割することを計画しており、毎日約 2GB のデータを取得しています。

4

3 に答える 3

2

最適なテーブルのパーティション分割は、テーブルの使用シナリオに一致するものです。パーティショニングは、以下に基づいて選択する必要があります。

  1. データがどのようにクエリされているか (主に毎日のデータで作業する必要がある場合は、日付ごとに分割します)。
  2. データがどのようにロードされているか (並列スレッドは、オーバーラップせずに独自のパーティションをロードする必要があります)

2Gb は、使用シナリオにもよりますが、1 つのファイルでも多すぎません。(年、月、日) のような不必要で複雑で冗長なパーティションは避けてください。この場合、パーティションのプルーニングには日付で十分です。

于 2016-06-01T19:08:39.007 に答える
0

Hive パーティショニングは、データがまばらな場合に最も効果的です。スパースとは、データが内部的に年、月、日などの目に見えるパーティションを持っていることを意味します。

あなたの場合、毎日 2 GB のデータがあり、処理するには大きすぎないため、日付によるパーティション分割はあまり意味がありません。週または月ごとにパーティション化すると、クエリ時間が最適化され、小さなパーティション ファイルがあまり作成されないため、より理にかなっています。

于 2019-07-24T10:28:51.370 に答える