膨大な量のデータ (ペタバイトのほぼ半分) に対してハイブ クエリを実行しようとしていますが、これらのクエリ実行マップは内部的に削減されます。データセットを生成するのに非常に長い時間がかかります (map reduce to complete) これらのクエリを高速化するために使用できるハイブと Hadoop の最適化メカニズムは何ですか? もう 1 つの重要な質問は、map reduce または /マップの縮小を高速化するには、tmp ディレクトリが重要ですか?
1 に答える
0
できることはそれほど多くありませんが、Hiveで通常できることをいくつか説明し
ます。シャッフルが少ないSQLを選択する必要があります。たとえば、可能であれば、マップ側の結合を発生させることができます。マップのみのクエリにつながる方法でいくつかの操作を実行することもできます。
もう1つの方法は、レデューサーの数を調整することです(Hiveが定義するレデューサーが必要な数よりもはるかに少ない場合もあります)。クラスターをより有効に活用するために手動で設定でき
ます。変換を実行するために実行するクエリの数がある場合は、このために低いレプリケーション係数を定義できます。 HDFSの一時データ
何をしているのかについての情報があれば、さらにヘルプを提供できます。
于 2012-10-29T19:24:12.013 に答える