問題タブ [apache-tez]

質問する

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

173 問題

0 投票する

1 に答える

1161 参照

hadoop - Hive CLI と Beeline jdbc:hive2 は、100 万レコードを挿入する実行エンジン tez で動作が異なりますか?

数百万のレコード (20GB サイズ) を持つ大きなテーブルから空のテーブルへの挿入を実行する場合。ハイブ CLI とビーラインでは実行が異なります。

Hive CLI: Yarn で 2 つの TEZ ジョブ (おそらくマッパーとリデューサー) を作成し、約 413 秒で完了します。

Beeline: Yarn で最初の TEZ ジョブを作成し、他は 150 を超える MapReduce ジョブで、ほぼ 2 時間かかります。

内部でMapReduceジョブを作成するため、TEZジョブのhiveserver2ビーラインの予想される動作ですか?

環境の詳細:

ハイブのバージョン: 2.1.1
Tez バージョン: 0.8.5

ハイブ共通設定:

hive.execution.engine=tez
hive.mv.files.thread=0

ビーライン設定:

tez.am.resource.memory.mb=20000
mapreduce.map.memory.mb=20000
hive.vectorized.execution.reduce.enabled=false;

前もって感謝します。

2018-08-08T04:16:32.550

0 投票する

1 に答える

364 参照

hadoop - 大規模な Hive インポートジョブの構成

私は初心者で、大きな (1.25 TB の非圧縮) hdfs ファイルを取り、それを Hive 管理テーブルに入れようとしています。任意のパーティションを持つ csv 形式 (sqoop から) の HDFS に既にあり、クエリと結合のために、より整理された形式にしています。Tez を使用して HDP 3.0 を使用しています。これが私のものhqlです：

Tez がこれを設定する方法は次のとおりです (私の最近の失敗から):

私はしばらくこれに取り組んできました。map 1最初は最初の頂点を実行できなかったので、バケットを追加しました。96 個のバケットで最初のマッパーが実行されましたが、reducer 2意味をなさないディスク容量の問題を引用して失敗しました。次に、バケットの数を 9600 に増やし、タスクを 10000 に減らすと、reduce 2ゆっくりではありますが、頂点が実行を開始しました。今朝、ガベージコレクターの Java ヒープスペースエラーが原因で namenode がシャットダウンしたため、エラーが発生したことがわかりました。

誰か私に何かアドバイスはありますか？削減タスクの数、バケットの数、および以下に示すすべての構成で、暗闇の中で撮影しているように感じます。

LLAP を設定していない

私のクラスターには、4 つのノード、32 コア、および 120 GB のメモリがあります。クラスターのストレージの 1/3 以上を使用していません。

hadoop hive hortonworks-data-platform apache-tez

2018-09-10T16:19:08.883

1 2 3 4 5 6 7 8 9 10

問題タブ [apache-tez]

hadoop - Hive CLI と Beeline jdbc:hive2 は、100 万レコードを挿入する実行エンジン tez で動作が異なりますか?

hadoop - 大規模な Hive インポート ジョブの構成

Reference

hadoop - 大規模な Hive インポートジョブの構成