1

サイズが大きいため、単純なselectクエリに応答するのに20〜30分かかるmysqlテーブルが1つあります。それをhadoopにインポートして処理できるかどうかを考えていました。それは良い考えでしょうか?ハイブを使用して同じクエリを実行すると、パフォーマンスが向上しますか?はいの場合、テーブルをHadoopにインポートするにはどうすればよいですか?テーブルには複合主キーがあるため、sqoopはオプションではありません。もう1つ、HBaseを使用する必要がありますか?どちらのアプローチが良いでしょうか?

ありがとう

4

3 に答える 3

3

Hiveはバッチ指向です。インタラクティブなアドホッククエリに使用され、Hiveよりも高速なImpalaの使用を検討してください。HiveはImpalaよりもはるかに古いため、多くのドキュメントがあり、ヘルプも簡単に見つけることができます。

Apache Drillもありますが、まだインキュベーターフェーズにあります。Amazon RedShiftもありますが、現時点ではプレビュー段階にあります。次に、GoogleBigQueryがあります。Hadoopでデータを取得し、その上でデータを処理するための複数のオプションがあります。

すべての問題に対する決まった解決策/選択はありません。要件に基づいて、適切なツールを選択する必要があります。

于 2013-02-07T14:05:36.813 に答える
1

テーブルをインポートする場合、複合主キーでもsqoopの順次インポートが使えると思います。単一のマッパー ( -m 1 を使用) のみを使用すると、「分割」列はもう必要ありません。

于 2013-02-04T09:54:21.597 に答える