問題タブ [apache-tez]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票する
2 に答える
256 参照

hadoop - hdfsから保存およびロードする必要なく、あるoozieアクションの出力を別のアクションに使用することは可能ですか? その中でサブワークフローオプションは役に立ちますか?

複数の豚のアクションを実行する Oozie ワークフローを作成する必要があります。これらの豚のアクションは相互に依存している可能性があります。つまり、1 つの豚のスクリプトの出力が他の豚のスクリプトに役立つということです。そして、hdfsからの複数回の保存と読み込みを避けたいです。これはどのように達成できますか?TEZ DAG を使用して、すべての豚のスクリプトを DAG 構造に結合し、Oozie から 1 つの Java アクションを実行できますか?

0 投票する
0 に答える
2064 参照

hadoop - TEZ を使用したハイブ インデックスの作成

MR ジョブの代わりに Tez を使用してインデックスを生成することは可能ですか? hive.execution.engine=Tez を設定してインデックスを生成しようとすると、インデックスの作成に失敗します。以下は、私が使用したコマンドのリストです。

CREATE TABLE table02(column1 文字列、column2 bigint、column3 文字列); CREATE INDEX table02_index ON TABLE table02 (column3) AS 'COMPACT' WITH DEFERRED REBUILD; ALTER INDEX table02_index ON table02 REBUILD;

インデックスの作成に失敗し、次のエラー メッセージが表示されました: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask

では、テーブルでのインデックス作成では、TEZ を使用してそのテーブルのデータに対してクエリを実行したい場合でも、常に hive.execution.engine=mr を設定する必要がありますか? TEZの制限ですか?

0 投票する
2 に答える
5096 参照

hadoop - Performance of Apache Drill

Are there any performance benchmark(genuine ones) that compare Stinger vs Impala vs Drill? Also, which is preferred - my use case will be mainly towards ad-hoc interactive queries on top of Hive. Thanks.

0 投票する
0 に答える
256 参照

apache-pig - Hue の pig で tez を実行中にエラーが発生しました。設定の問題ですか、それとも間違った引数を使用していますか?

私は pig+tez でいくつかの調査を行っていましたが、CLI で-x tezpig の引数を含めて動作することがわかりました。ただし、hue から実行している間は、豚の引数 -exectypetez でも同じように動作するはずですが、次のエラー メッセージで失敗しました。

ここに画像の説明を入力

0 投票する
2 に答える
1614 参照

merge - Hive で SQL "Alter Table/Partition Concatenate" の生成ファイルを減らすにはどうすればよいですか?

ハイブのバージョン: 1.2.1

構成:

HQL:

HQL を使用して、特定のテーブル/パーティションのファイルをマージします。ただし、実行後、出力ディレクトリにはまだ多くのファイルがあります。そしてそれらのサイズは256000000よりもはるかに小さいです.では、出力ファイルの数を減らす方法.

ところで、Tez の代わりに MapReduce を使用しても機能しませんでした。

0 投票する
3 に答える
5345 参照

hive - Hive Tez 実行エラー

ハイブ クエリを実行しています。hive.execution.engine=tez を設定すると、クエリが engine=MR で動作しているときに次のエラーが発生しました。

私のクエリは内部結合であり、データは非常に大きいです。

もう1つのことは、私が以前にこの問題に遭遇したことです。しかし、tez は後で動作するので、Hive に関する不安定な問題だと思いました。

0 投票する
3 に答える
1282 参照

sql - Hive : 実行時間の長いクエリを最適化する

50GB サイズの従業員ログ テーブルで実行される単純な Hive SQL クエリは、何時間も実行されます。

部門はわずか 4 ~ 5 で、部門ごとに膨大な数の従業員がいます。

1TB メモリで Hive 0.14 + Tez で実行されました。このコード ブロックを最適化してパフォーマンスを向上させる方法はありますか?

変更 1
個別の代わりに collect_list を使用してテストされています。

SELECT dept, size(collect_list(emp_id)) nb_emps FROM emp_log GROUP BY dept

以下のエラーが発生しました。
Status: Failed Vertex failed, vertexName=Reducer 2,vertexId=vertex_1446976653619_0043_1_02, diagnostics=[Task failed,taskId=task_1446976653619_0043_1_02_000282, diagnostics=[TaskAttempt 0 failed, info=[Error: Failure while running task:java.lang.RuntimeException: java.lang.OutOfMemoryError: Java heap space

0 投票する
0 に答える
1686 参照

hadoop - ハイブは like 演算子で結合します

ORC 圧縮を使用し、実行エンジンとして TEZ を使用している 2 つのテーブルがあります。table_a には 90 万件を超えるレコードが含まれ、table_b には 1,700 万件のレコードが含まれています。このクエリは時間がかかります 2 日間待機しましたが、クエリの実行は完了しませんでした。このクエリで何が間違っていますか。