hadoop - Hive クエリの生成でデータセットの生成に時間がかかる

Question

膨大な量のデータ (ペタバイトのほぼ半分) に対してハイブクエリを実行しようとしていますが、これらのクエリ実行マップは内部的に削減されます。データセットを生成するのに非常に長い時間がかかります (map reduce to complete) これらのクエリを高速化するために使用できるハイブと Hadoop の最適化メカニズムは何ですか? もう 1 つの重要な質問は、map reduce または /マップの縮小を高速化するには、tmp ディレクトリが重要ですか?

score 0 · Accepted Answer

できることはそれほど多くありませんが、Hiveで通常できることをいくつか説明し
ます。シャッフルが少ないSQLを選択する必要があります。たとえば、可能であれば、マップ側の結合を発生させることができます。マップのみのクエリにつながる方法でいくつかの操作を実行することもできます。
もう1つの方法は、レデューサーの数を調整することです（Hiveが定義するレデューサーが必要な数よりもはるかに少ない場合もあります）。クラスターをより有効に活用するために手動で設定でき
ます。変換を実行するために実行するクエリの数がある場合は、このために低いレプリケーション係数を定義できます。 HDFSの一時データ
何をしているのかについての情報があれば、さらにヘルプを提供できます。

hadoop - Hive クエリの生成でデータセットの生成に時間がかかる

1 に答える 1

Related

Reference