Web サイトのログを処理するスクリプトがいくつかあります。このデータを Hive の複数のテーブルにロードしました。これらのスクリプトを毎日実行して、トラフィックの分析を行っています。
最近、これらのスクリプトで作成したハイブ クエリに時間がかかりすぎていることがわかりました。以前は、レポートの生成に約 10 ~ 15 分かかっていましたが、今では同じことを行うのに数時間かかります。
私はデータの分析を行い、データセットの増加の約 5-10% を行いました。
私の友人の 1 人が、複数の Hive テーブルを結合することに関しては Hive は良くないので、スクリプトを Pig に切り替える必要があると提案してくれました。Pig と比較して、Hive はテーブルの結合が苦手ですか?