mysql - MySQLテーブルをHadoopにインポートしますか？

Question

サイズが大きいため、単純なselectクエリに応答するのに20〜30分かかるmysqlテーブルが1つあります。それをhadoopにインポートして処理できるかどうかを考えていました。それは良い考えでしょうか？ハイブを使用して同じクエリを実行すると、パフォーマンスが向上しますか？はいの場合、テーブルをHadoopにインポートするにはどうすればよいですか？テーブルには複合主キーがあるため、sqoopはオプションではありません。もう1つ、HBaseを使用する必要がありますか？どちらのアプローチが良いでしょうか？

ありがとう

score 3 · Accepted Answer

Hiveはバッチ指向です。インタラクティブなアドホッククエリに使用され、Hiveよりも高速なImpalaの使用を検討してください。HiveはImpalaよりもはるかに古いため、多くのドキュメントがあり、ヘルプも簡単に見つけることができます。

Apache Drillもありますが、まだインキュベーターフェーズにあります。Amazon RedShiftもありますが、現時点ではプレビュー段階にあります。次に、GoogleBigQueryがあります。Hadoopでデータを取得し、その上でデータを処理するための複数のオプションがあります。

すべての問題に対する決まった解決策/選択はありません。要件に基づいて、適切なツールを選択する必要があります。

score 1 · Accepted Answer

テーブルをインポートする場合、複合主キーでもsqoopの順次インポートが使えると思います。単一のマッパー ( -m 1 を使用) のみを使用すると、「分割」列はもう必要ありません。

mysql - MySQLテーブルをHadoopにインポートしますか？

3 に答える 3

Related

Reference