問題タブ [tez]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - Tez で無限に実行される Hive クエリ
以下は、実行エンジンをtezとしてHiveで実行しようとしているクエリです。
- Hive のデータに対して上記のクエリを実行すると、結果が得られずに何時間も実行され続けますが、構文的には上記のクエリは正しいです。
- TABLEA と TABLEB の両方に数百万のレコードがあります。
データ形式を変えたり、コンテナサイズを大きくしたり、レデューサーの数を変えたり、ヒープサイズを変えたりしてみました。どのパラメータを変更しても、クエリが動かなくなります。
さらに調査したところ、where 条件とウィンドウ関数が原因でクエリが無限に実行されていることがわかりました。
これが私の質問です:
- 膨大なデータに対してエンド ツー エンドでクエリを実行する変更は何ですか?
ご協力いただきありがとうございます
hadoop - いつ Hive エンジン MR を使用し、いつ TEZ を使用しますか?
どのような条件下で、MR よりも Hive エンジン TEZ を使用するのが望ましいですか?
それぞれの長所と短所は何ですか?
java - 実行エンジンとして tez を使用してクエリを実行すると、Hive OOM エラーが発生する
次のクエリを実行すると、以下のエラーが発生します。
約 2 つのマッパー タスクと 240 のレデューサー タスクを起動しています。ジョブは 239 タスクまでスムーズかつ高速に進んでおり、4 つのタスク試行を行うのに 3 時間かかり、ジョブは失敗しています。テーブルmytestには、1 つの列「clickstream_key」を持つ 20 億のレコードが含まれています。
データ ノード ヒープ、リデューサー ヒープ、マッパー ヒープ、hive.tez.java.opts を増やしてみましたが、どれも機能しませんでした。これに関するリードは高く評価されます。エラーには、Java ヒープ スペースが表示されますが、どの Java ヒープ スペースを意味しますか?
hadoop - Pig on Tez のキュー名を設定するには?
Pig を TEZ で実行しているときに、コマンド ラインからキュー名を設定するにはどうすればよいですか?
次のようなコマンド ラインから Pig スクリプトを実行したいと考えています。
次の設定を試しました。
しかし、指定したキューでジョブが実行されていません。
ありがとうございました!
mapreduce - Tez エンジンのハイブ
現在、実稼働環境では、mapreduce エンジンの代わりに tez でハイブを使用しています。そのため、結合のためのすべてのハイブ最適化が tez にも関連するかどうかを尋ねたいと思いました。たとえば、マルチテーブルテーブルでは、結合キーが同じ場合、単一のマップ削減ジョブが使用されると述べられていましたが、1 つのテーブルを結合していた環境で HQL をチェックしたとき、同じキーの多くのテーブルが外側に残っていました。レデューサー、実際には17のレデューサーが実行されていました.tezのハイブはmrのハイブとは異なるためですか?
Hive バージョン: 1.2 Hadoop:2.7 以下は、1 つのレデューサーのみを使用することについて言及しているドキュメントです https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Joins