問題タブ [tez]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - HDP 2.2 から 2.3 にアップグレードした後、Tez の Hive が Hue で動作しません (エラー: クライアント バージョン = 不明)
Hadoop クラスター用に HortonWorks を 2.2 から 2.3 にアップグレードし、必要なすべての変更を Hue に加えました (HortonWorks のドキュメントに記載されています) が、Hive ブラウザーで Tez にアクセスすると、Hive CLI で Tez が完全に正常に動作するのに対して、Hue クライアントには次の問題があります。以前 (HDP 2.2)、Tez は Hue と互換性がありましたが、HDP 2.3 で Tez を使用する Hue クライアントに問題はありますか?
問題 1: HDP 2.2 を 2.3 にアップグレードした後も、Tez は HDFS とローカルの場所で HDP 2.2 ライブラリ ファイルを探します。HDP 2.2 の場所:
HDFS: /hdp/apps/2.2.9.0-3393
ローカル ファイル: /usr/hdp/2.2.9.0-3393
問題 1 の一時的な解決策: 2.3 のサポート ファイルを 2.2 に移動しました。
HDFS:
ローカル ファイル:
技術的には、Tez は 2.3.2.0-2950 である「/usr/hdp/current」ディレクトリを探す必要があります。
問題 2: Hue を介して Tez で Hive を実行すると、次のエラーが発生します。
エラー:
いくつかの調査により、Hive クエリの実行に Tez の実行が必要ない場合、Hue クライアントのバージョンは AM バージョンと一致するのに対し、tez の実行が必要なクエリは Hue クライアントのバージョンが不明として表示されることがわかりました。
Tez の実行が不要な場合、クライアント バージョンと AM バージョンは一致します。
アプリケーション appattempt_1470224940790_0082_000001 の DAGAppMaster を作成しました。 .org/repos/asf/tez.git , buildTime=20150930-1859 ] [INFO] [main] |app.DAGAppMaster|: クライアント バージョンと AM バージョンの比較、clientVersion=0.7.0.2.3.2.0-2950、AMVersion= 0.7.0.2.3.2.0-2950
Tez の実行が有効になっている場合、クライアントのバージョンと AM のバージョンが一致しません。
アプリケーション appattempt_1470224940790_0092_000001 用の DAGAppMaster を作成しました。 .org/repos/asf/tez.git , buildTime=20150930-1859 ] クライアント バージョンと AM バージョンの比較、clientVersion=Unknown、AMVersion=0.7.0.2.3.2.0-2950 [エラー] [main] |app.DAGAppMaster| : 互換性のないバージョンが見つかりました。clientVersion=Unknown、AMVersion=0.7.0.2.3.2.0-2950
HDP 2.3 で Hue を介して Tez が有効になっている場合、互換性のないバージョン エラーの解決策を見つける方法を教えてください。
csv - Hadoop からハイブへの CSV ロード - スケーラビリティの問題 20GB/h
prestoでクエリを実行する場所から、hadoopからハイブへのデータのロードを高速化する方法を探しています。私のワークフローでは、hadoop で単一の csv ファイルから始めます。
インスタント、csv のビューのみを作成します。
次に、すべてのカウントはすでにかなり遅いです...
ターゲット テーブルは次のように準備されます。
そして読み込まれました:
この単一のテーブルは、hadoop からハイブにロードするのに約 5 時間以上かかります。2 つの整数列を持つ 103 GB の csv には長すぎませんか? 理想的には、5e9 のより良いスケーリングだけでなく、より大きなセットも目指します。
250GB の 10 台のマシンのクラスターがそれを処理する必要があります。それは私のバージョンに何らかの形で関連しているのでしょうhive-0.14.0.2.2.6.3
か ( )、またはカスタム設定がここで役割を果たすことができますか?
hadoop - Tez で Spark / Flink を実行するのはなぜですか?
Saha らのTez 論文では、Tez を使用した Hadoop 2 の次のモジュラー アーキテクチャが示されています。
誰かが Tez で Spark/Flink を実行するのはなぜですか?
利点は何ですか?YARNのより良い利用?
hadoop - ハイブはテーブルを作成し、データを挿入しません
以下のハイブクエリを実行しています。mapreduce が完了すると、データが挿入されていないことがわかります。
しかし、以下のように選択クエリを実行すると、結果が得られます。t1、t2、t3 のデータ型は同じです。最後に、次のステートメントを取得します。
"numFiles = 27 , numRows = 0 and totalSize = 34567...."
問題になる可能性のある考え。TEZを使用してこれを実行しています。
hive - Tez のジョブ履歴にアクセスする
tez 実行エンジンのジョブ履歴サーバーからジョブ情報を取得したいと考えています。
現在、すべての map reduce ジョブはジョブ履歴サーバーに反映されますが、tez のジョブには反映されません。
ジョブ履歴は、何らかのログを使用してすべての情報を取得しています。これらのログはどこにありますか? ジョブ履歴サーバーで情報が利用できない場合は、それらのログを解析して必要な情報を取得できます。
すでに pig-tez コマンド ログの解析を試みました。十分な情報が含まれておらず、tez 上のハイブでは機能しない解析。
hadoop - Tez のコンテナーの物理メモリを増やすにはどうすればよいですか?
aws emr 4.8
ハイブ 1.0 と tez 0.8のクラスターでいくつかのハイブ スクリプトを実行しています。
私の構成は次のようになります。
そして、私のグローバル設定は次のとおりです。
スクリプトの実行中に、次のエラーが発生します。
このエラーをグーグルで調べたところ、セットtez.task.resource.memory.mb
が物理メモリの制限を変更することを読みましたが、明らかに間違っていました。私は何が欠けていますか?