AWS Elastic MapReduce を使用して、比較的フラットな時系列データに対して統計分析を実行しようとしています。AWS は、EMR ジョブに Hive、Pig、または HBase を使用するオプションを提供します。このタイプの分析にはどれが最適でしょうか? データ分析がテラバイト規模になるとは思いません。テーブル内のアイテムはほとんどが 1K 未満です。私は 3 つのいずれも使用したことがありませんが、学習曲線は問題になりません。私は、何がより効率的になるかということにもっと関心があります。私もこのプロジェクトをすぐに引き渡す予定なので、noSQL の経験がある人にとっては比較的理解しやすいものがいいでしょう。私が作成するクエリの例は、「先週から今日までの間に、各日のイベント値が 20 を超えるすべてのアカウントを検索する」のようなものです。
1698 次
2 に答える
1
短い要約の答え:
Hive は使い慣れた SQL 構文を使用するため、データ分析の簡単な "最初のオプション" です。このため、Excel、Tableau、Pentaho、Datameer、SAS など、フロントエンド分析ツールへの便利なコネクタが多数あります。
Pig は、Hadoop に着信するデータの ETL (変換) によく使用されます。データ分析では、データを Hive に保存する前に、データの「変換」が必要になる場合があります。たとえば、ヘッダーを削除したり、他のソースから情報を適用したりすることを選択できます。これがどのように機能するかの良い例は、無料のHortonworks サンドボックス チュートリアルで提供されています。
HBase は、Hadoop 上の NoSQL ストアを明示的に探している場合に、より価値があります (例)。
于 2013-08-20T03:23:21.250 に答える