問題タブ [tez]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hive - Tez を使用した HIve2 で実行エラーが発生する
TezでHive2を使用しています。クエリを実行すると、以下に示す実行エラーが発生します。
java.lang.IllegalArgumentException: 空の文字列からパスを作成できません
hive - Parquet 警告 Amazon EMR の Hive MapReduce でログがいっぱいになる
Hive on Tez に寄木細工として保存されたテーブルでカスタム UDAF を実行しています。Hive ジョブは YARN で実行され、すべて Amazon EMR でセットアップされます。ただし、私たちが持っている寄木細工のデータが古いバージョンの寄木細工 (1.5) で生成されたという事実により、YARN ログがいっぱいになり、ジョブが終了する前にディスクの容量が不足するという警告が表示されます。
これは警告です:
PM 警告: org.apache.parquet.CorruptStatistics: created_by を解析できなかったため、統計を無視しています (PARQUET-251 を参照): parquet-mr バージョン
また、スタック トラックも出力します。警告ログを黙らせようとしましたが、役に立ちませんでした。この警告を除いて、ほぼすべての種類のログをオフにすることができました。ここで概説されているように、AWS config を使用して、ほぼすべての Log4j 設定ファイルを変更しようとしました。
私がこれまでに試したこと:
tez-site.xmlで次の設定を行います(JSON 形式で記述します。これは、AWS が構成に必要とするためです)。もちろん、実際のインスタンスでは適切な XML 形式です。
/li>mapred-site.xmlに次の設定があります。これらの設定により、問題の警告を除いて、YARN ログで発生するすべてのログが効果的にオフになりました。
/li>これらの設定は、他のほぼすべてのlog4j.propertiesファイルに含まれています。前の AWS リンクに示されているリストで見つけました。
/li>
正直なところ、現時点では、何らかの方法でログをオフにして、何らかの方法でジョブを実行したいだけです。このリンクなど、log4j 設定を変更して修正した同様の問題について読んだことが ありますが、これは Spark 用であり、Hive/Tez および Amazon では機能していないようです。どんな助けでも大歓迎です。
mysql - mysql と比較して、Hive テーブルの 2 億 3000 万レコードからのフィルター処理に時間がかかる
テーブルを操作してhive
SQLの1つを実行し、2億3000万レコードからいくつかのレコードを取得していますが、map reduceプロセスで実行するのに300秒かかり、mysql
この情報を1秒未満で取得します. なぜhive
もっと時間がかかるのですか?
エンジンAmbari
付きクラスターを使用しています。Tez
にデータベースを移動することに混乱していますhadoop
。
hadoop - MapReduce では実行されているが Tez では実行されていない Pig スクリプト
Pig(0.16.0) のバージョンを使用しており、Tez のバージョンは 0.9.0 です。Pig スクリプトは MapReduce では正常に実行されますが、Tez では実行されません。tez-0.8.(3-5) を変更しようとしましたが、まだ機能しません。これはバージョンの不一致の問題でしょうか? ログを見てください: