問題タブ [apache-tez]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
980 参照

sql - 長時間実行されるハイブ SQL クエリを最適化する - 同じテーブルとの結合がある

以下のクエリは、実行に時間がかかります。これは、tez 実行エンジンで実行されます。

クエリのパフォーマンスを改善できる書き換えオプションまたは最適化戦略はありますか?

0 投票する
0 に答える
629 参照

hadoop - 大規模なデータセット (~2.5 TB) では、ハイブよりも Tez の実行時間が遅い

tez クエリ エンジンのテストを開始しました。最初の結果から、より小さいデータ セット (1 ~ 10 GB) で Hive よりも 30% パフォーマンスが向上していますが、データ サイズが大きくなるにつれて、Hive は Tez よりも優れたパフォーマンスを発揮し始めます。たとえば、約 1.3 TB 相当のデータに対して Tez を使用してハイブ クエリを実行すると、ハイブのみの場合よりもパフォーマンスが低下します (パフォーマンスが最大 20% 低下)。詳細については、以下の投稿を参照してください。

http://www.jwplayer.com/blog/hive-with-tez-on-emr/

1.3 TB の RAM を搭載したクラスターで、次のプロパティを設定しました。

それは正常ですか、それとも一部のプロパティが不足しています/一部のプロパティが適切に構成されていませんか? また、現在、古いバージョンの Tez を使用しています。それも問題でしょうか?私はまだ EMR で最新バージョンの Tez をブートストラップしてテストし、改善できるかどうかを確認します。

0 投票する
0 に答える
182 参照

apache-pig - エラー org.apache.pig.tools.grunt.Grunt - エラー 1066: エイリアスの反復子を開けません

$ pig -z tez grunt> emp = LOAD '/emp.csv, /tmp/emp/part-m-00000' using PigStorage(',') as (id:int, name:chararray, disg:chararray, sal: long, loc:chararray); 2015-12-16 21:30:21,706 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - fs.default.name は非推奨です。代わりに、fs.defaultFS grunt> dump emp; を使用してください。

失敗した!

入力:

出力:

0 投票する
2 に答える
503 参照

hadoop - Tez プッシュダウン述語の Hive が、パーティション分割されたテーブルでウィンドウ関数を使用するビューで機能しない

Hive on Tez を使用して、このビューに対してこのクエリを実行すると、regionid と id にパーティションがある場合でも、フル テーブル スキャンが発生します。Cloudera Impala でのこのクエリの完了には 0.6 秒かかり、Tez で Hortonworks Data Platform と Hive を使用すると 800 秒かかります。Hive on Tez では、ウィンドウ関数を使用すると、述語が内部選択にプッシュされるのを防ぎ、完全なテーブル スキャンが発生するという結論に達しました。

MAX関数を使用してこのテーブルを結合して最新のレコードを取得しようとしましたが、機能し、数秒で終了しますが、私のユースケースにはまだ遅すぎます. また、ウィンドウ関数を削除すると、述語が押し下げられ、ミリ秒単位で返されます。

誰かに何かアイデアがあれば、それは大歓迎です。

0 投票する
1 に答える
2818 参照

hadoop - テズ。スローレデューサー

TEZ mapreduce ジョブで奇妙な動作が発生します。

Hive からログ データを読み取り、ID、日付、その他のパラメーターでいくつかのチャンクに分割してから、別の Hive テーブルに書き込もうとしています。

マップ フェーズは十分に速く動作し、レデューサーが動作を開始し、458 のレデューサーから 453 のレデューサーが次の 20 分以内にすべてのデータを処理するまでに約 20 分かかります。ただし、最後の 5 つのレデューサーは約 1 時間動作します。

これは、入力データに巨大なエントリが含まれており、これらのエントリの処理に時間がかかるために発生します。そのような場合のベストプラクティスは何ですか? 最後のレデューサーの一種の並列処理を可能にするために、hadoop/tez/hive のチューニングを行う必要がありますか?それとも、入力データを他のパラメーターで分割して巨大なエントリを回避する方が賢明でしょうか?

アドバイスをありがとう。

0 投票する
0 に答える
2312 参照

hadoop - tez エンジンを実行する Hive での入力分割サイズの管理

入力分割が tez エンジンでどのように計算されるかをよりよく理解したいと思います。

hive.input.format プロパティは、HiveInputFormat (デフォルト) またはCombineHiveInputFormat (サイズ << hdfs ブロック サイズの多数のファイルで一般的に受け入れられる) のいずれかに設定できることを認識しています。

データ ファイルのサイズが小さい (ブロック未満) から大きい (複数のブロックにまたがる) までさまざまであるため、 HiveInputFormatCombineHiveInputFormatが分割サイズを計算する方法の違いについて、誰かが説明してくれることを期待していました。

テーブルをスキャンするために生成されるマッパー タスクの数を指定したいと考えています。MR エンジンの場合、これはmapred.min.split.sizeおよびmapred.max.split.sizeプロパティを設定することで制御できます。tez エンジンに同様の構成があるかどうかを知る必要があります。

また、プロパティtez.grouping.max-sizetez.grouping.min-size、およびtez.grouping.split-wavesは、それぞれ 1GB、16MB、および 1.7 の値に設定されています。ただし、作成された入力分割がこれらのプロパティに準拠していないことがわかりました。

テーブルごとにサイズが 3MB のファイルが 2 つありました。設定されたプロパティによると、1 つのマッパー タスクのみが生成されるはずでしたが、代わりに 2 つのマッパー タスクが生成されました。

入力分割グループ化を有効にするために設定する必要がある hive/tez の他のプロパティはありますか?

ご意見をいただければ幸いです。

ありがとう!

0 投票する
1 に答える
1040 参照

hadoop - いつ Hive エンジン MR を使用し、いつ TEZ を使用しますか?

どのような条件下で、MR よりも Hive エンジン TEZ を使用するのが望ましいですか?

それぞれの長所と短所は何ですか?

0 投票する
1 に答える
2105 参照

hive - InputInitializerManager エラーの作成に失敗しました - HIVE 上の TEZ

Apache Tez 0.8.1、Hadoop バージョン 2.7.0、および Hive バージョン 2.01 をインストールしました。Map Reduce ジョブを正常に実行できました。しかし、Hive を構成して単純なカウント クエリを実行しようとすると、次のエラーが返されました。 jar を検索しようとしているエラーから、jar をクラスパスに配置しましたが、それでもエラーは解決しませんでした。

これを解決するのを手伝ってください.事前に感謝します!!.

アップデート:

上記の問題に直面した後、hadoop-core-1.2.1.jar をハイブ lib フォルダーにコピーしました。その後、ハイブの起動中に別の問題に直面しています。トレースから、不正な引数が渡されていることがわかりました。 .