単純な結合クエリを実行しています
select count(*) from t1 join t2 on t1.sno=t2.sno
テーブルt1とt2は両方ともそれぞれ2000万レコードを持ち、列snoは文字列データ型です。
テーブルデータは、Amazons3からrcfile形式でHDFSにインポートされます。クエリは15のAmazonラージインスタンスで109秒かかりましたが、16GBのRAMと16のCPUコアを備えたSQLサーバーでは42秒かかりました。
私は何かが足りないのですか?Amazonでパフォーマンスが低下する理由がわかりませんか?