0

データベースからデータを照会するために Apache spark-sql を使用しています。Spark はデフォルトでハイブの同じメタストアを共有することを知っています。30 万を超える個別の値を持つ列 ID に基づいて入力データを分割しました。現在、そのテーブルには 30 万を超えるパーティションがあり、定期的に増加します。

これにより問題が発生することはありますか?

4

1 に答える 1

1

はい、これらの多くのパーティション エントリは、各パーティション エントリを追跡するために名前ノードにオーバーヘッドを作成します。

テーブルが 1 つしかない場合は、その列の Hive インデックス作成が適切なオプションです。

于 2015-11-23T06:05:59.643 に答える