私は Hadoop Hive を初めて使用し、レポート ソリューションを開発しています。問題は、クエリのパフォーマンスが非常に遅いことです (hive 0.10、hbase 0.94、hadoop 1.1.1)。クエリの 1 つは次のとおりです。
select a.*, b.country, b.city from p_country_town_hotel b
inner join p_hotel_rev_agg_period a on
(a.key.hotel = b.hotel) where b.hotel = 'AdriaPraha' and a.min_date < '20130701'
order by a.min_date desc
limit 10;
これにはかなり長い時間がかかります (50 秒)。結合は文字列フィールドであり、整数ではありませんが、データセットは大きくありません(cca 3300および100000レコード)。このSQLでヒントを試してみましたが、それ以上速くなりませんでした。MS SQL Server での同じクエリは 1 秒続きます。また、テーブルからの単純なカウント (*) は 7 ~ 8 秒続きますが、これは衝撃的です (テーブルには 3300 レコードがあります)。何が問題なのか本当にわかりませんか?アイデアはありますか、それとも Hadoop を誤解しましたか?