問題タブ [apache-tez]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - hdfsから保存およびロードする必要なく、あるoozieアクションの出力を別のアクションに使用することは可能ですか? その中でサブワークフローオプションは役に立ちますか?
複数の豚のアクションを実行する Oozie ワークフローを作成する必要があります。これらの豚のアクションは相互に依存している可能性があります。つまり、1 つの豚のスクリプトの出力が他の豚のスクリプトに役立つということです。そして、hdfsからの複数回の保存と読み込みを避けたいです。これはどのように達成できますか?TEZ DAG を使用して、すべての豚のスクリプトを DAG 構造に結合し、Oozie から 1 つの Java アクションを実行できますか?
hadoop - TEZ を使用したハイブ インデックスの作成
MR ジョブの代わりに Tez を使用してインデックスを生成することは可能ですか? hive.execution.engine=Tez を設定してインデックスを生成しようとすると、インデックスの作成に失敗します。以下は、私が使用したコマンドのリストです。
CREATE TABLE table02(column1 文字列、column2 bigint、column3 文字列); CREATE INDEX table02_index ON TABLE table02 (column3) AS 'COMPACT' WITH DEFERRED REBUILD; ALTER INDEX table02_index ON table02 REBUILD;
インデックスの作成に失敗し、次のエラー メッセージが表示されました: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.tez.TezTask
では、テーブルでのインデックス作成では、TEZ を使用してそのテーブルのデータに対してクエリを実行したい場合でも、常に hive.execution.engine=mr を設定する必要がありますか? TEZの制限ですか?
hadoop - Performance of Apache Drill
Are there any performance benchmark(genuine ones) that compare Stinger vs Impala vs Drill? Also, which is preferred - my use case will be mainly towards ad-hoc interactive queries on top of Hive. Thanks.
merge - Hive で SQL "Alter Table/Partition Concatenate" の生成ファイルを減らすにはどうすればよいですか?
ハイブのバージョン: 1.2.1
構成:
HQL:
HQL を使用して、特定のテーブル/パーティションのファイルをマージします。ただし、実行後、出力ディレクトリにはまだ多くのファイルがあります。そしてそれらのサイズは256000000よりもはるかに小さいです.では、出力ファイルの数を減らす方法.
ところで、Tez の代わりに MapReduce を使用しても機能しませんでした。
hive - Hive Tez 実行エラー
ハイブ クエリを実行しています。hive.execution.engine=tez を設定すると、クエリが engine=MR で動作しているときに次のエラーが発生しました。
私のクエリは内部結合であり、データは非常に大きいです。
もう1つのことは、私が以前にこの問題に遭遇したことです。しかし、tez は後で動作するので、Hive に関する不安定な問題だと思いました。
sql - Hive : 実行時間の長いクエリを最適化する
50GB サイズの従業員ログ テーブルで実行される単純な Hive SQL クエリは、何時間も実行されます。
部門はわずか 4 ~ 5 で、部門ごとに膨大な数の従業員がいます。
1TB メモリで Hive 0.14 + Tez で実行されました。このコード ブロックを最適化してパフォーマンスを向上させる方法はありますか?
変更 1
個別の代わりに collect_list を使用してテストされています。
SELECT dept, size(collect_list(emp_id)) nb_emps
FROM emp_log
GROUP BY dept
以下のエラーが発生しました。
Status: Failed Vertex failed, vertexName=Reducer 2,vertexId=vertex_1446976653619_0043_1_02, diagnostics=[Task failed,taskId=task_1446976653619_0043_1_02_000282, diagnostics=[TaskAttempt 0 failed, info=[Error: Failure while running task:java.lang.RuntimeException: java.lang.OutOfMemoryError: Java heap space
hadoop - ハイブは like 演算子で結合します
ORC 圧縮を使用し、実行エンジンとして TEZ を使用している 2 つのテーブルがあります。table_a には 90 万件を超えるレコードが含まれ、table_b には 1,700 万件のレコードが含まれています。このクエリは時間がかかります 2 日間待機しましたが、クエリの実行は完了しませんでした。このクエリで何が間違っていますか。