tez クエリ エンジンのテストを開始しました。最初の結果から、より小さいデータ セット (1 ~ 10 GB) で Hive よりも 30% パフォーマンスが向上していますが、データ サイズが大きくなるにつれて、Hive は Tez よりも優れたパフォーマンスを発揮し始めます。たとえば、約 1.3 TB 相当のデータに対して Tez を使用してハイブ クエリを実行すると、ハイブのみの場合よりもパフォーマンスが低下します (パフォーマンスが最大 20% 低下)。詳細については、以下の投稿を参照してください。
http://www.jwplayer.com/blog/hive-with-tez-on-emr/
1.3 TB の RAM を搭載したクラスターで、次のプロパティを設定しました。
set tez.task.resource.memory.mb=10000;
set tez.am.resource.memory.mb=59205;
set tez.am.launch.cmd-opts =-Xmx47364m;
set hive.tez.container.size=59205;
set hive.tez.java.opts=-Xmx47364m;
set tez.am.grouping.max-size=36700160000;
それは正常ですか、それとも一部のプロパティが不足しています/一部のプロパティが適切に構成されていませんか? また、現在、古いバージョンの Tez を使用しています。それも問題でしょうか?私はまだ EMR で最新バージョンの Tez をブートストラップしてテストし、改善できるかどうかを確認します。