apache-spark - Hive メタストアの多数のパーティションによるエラー

Question

データベースからデータを照会するために Apache spark-sql を使用しています。Spark はデフォルトでハイブの同じメタストアを共有することを知っています。30 万を超える個別の値を持つ列 ID に基づいて入力データを分割しました。現在、そのテーブルには 30 万を超えるパーティションがあり、定期的に増加します。

これにより問題が発生することはありますか？

score 1 · Accepted Answer

はい、これらの多くのパーティションエントリは、各パーティションエントリを追跡するために名前ノードにオーバーヘッドを作成します。

テーブルが 1 つしかない場合は、その列の Hive インデックス作成が適切なオプションです。

apache-spark - Hive メタストアの多数のパーティションによるエラー

1 に答える 1

Related

Reference