database - クラウドでの MapReduce

Question

Amazon MapReduce を除いて、大量のデータを処理するために他にどのようなオプションが必要ですか?

score 1 · Accepted Answer

MicrosoftもWindowsAzureでHadoop/MapReduceを実行していますが、CTPは制限されていますが、以下のリンクで情報を提供し、CTPアクセスをリクエストできます。https ： //www.hadooponazure.com/ApacheHadoopの開発者プレビュー- Windows Azure向けのベースのサービスは、招待により利用できます。

さらに、Google BigQueryを試すこともできます。この場合、最初にデータをGoogle独自のストレージに移動してから、BigQueryを実行する必要があります。BigQueryはMapReduceに似たDremelに基づいていますが、列ベースの検索処理により高速であることを忘れないでください。

もう1つのオプションは、Pythonとpigをインテリジェントに使用してジョブを簡単に記述し、結果を視覚化するMortarDataを使用することです。とてもおもしろいと思いました。http： //mortardata.com/# ！/how_it_worksをご覧ください。

score 1 · Accepted Answer

大量のデータをリアルタイムで処理したい場合 (twitter フィード、ウェブサイトからのクリックストリーム) など、マシンのクラスターを使用して、最近 twitter からオープンソース化された"storm"をチェックしてください。

標準の Apache Hadoop は、遅延が問題にならないペタバイト単位のデータをバッチで処理するのに適しています。

前述の DataStax の Brisk は、ライブデータに対して MapReduce 並列処理を使用できるという点で非常にユニークです。

パイプラインを使用して処理できるHadoop Onlineのような他の取り組みもあります。

Google BigQuery は明らかに、csv (区切りレコード) を使用する別のオプションであり、設定なしでスライスアンドダイスできます。使い方は非常に簡単ですが、料金を支払う必要がないプレミアムサービスです。処理されたバイト数 (ただし、最初の 100 GB/月は無料です)。

score 1 · Accepted Answer

DataStax Briskは優れています。

フルオンのディストリビューション

アパッチ・ハドゥープ
Apache Hadoop を含む Cloudera のディストリビューション (正式名称)
Apache Hadoop の IBM ディストリビューション
DataStax ブリスク
Amazon Elastic MapReduce

HDFS の代替

マプル
Appistry CloudIQ ストレージ Hadoop エディション
IBM グローバルパラレルファイルシステム (GPFS)
クラウドストア

Hadoop MapReduce の代替案

パーベイシブデータラッシュ
カスケード
Hive (Cloudera のディストリビューションに含まれる Apache サブプロジェクト)
Pig (Yahoo が開発した言語で、Cloudera のディストリビューションに含まれています)

参照： http: //gigaom.com/cloud/as-big-data-takes-off-the-hadoop-wars-begin/

score 0 · Accepted Answer

クラウドにとどまりたい場合は、EC2インスタンスを起動して永続的なHadoopクラスターを作成することもできます。Clouderaには、このようなクラスターのセットアップに関するリソースがたくさんあります。

ただし、このオプションは、1日を通して実行するジョブが多く、クラスターをかなりビジー状態にしない限り、AmazonElasticMapreduceよりも費用効果が低くなります。

もう1つのオプションは、独自のクラスターを構築することです。Hadoopの優れた機能の1つは、異種のハードウェアを適切なコンピューティング能力を備えたクラスターにまとめることができることです。サーバールームのラックに住むことができる種類。敷設されている古いハードウェアはすでに支払われていることを考えると、そのようなクラスターを稼働させるための唯一のコストは新しいドライブであり、おそらくそれらのボックスの容量を最大化するのに十分なメモリースティックです。その場合、そのようなアプローチの費用対効果は、Amazonよりもはるかに優れています。唯一の注意点は、すべてのデータをクラスターのHDFSに定期的にプルダウンするために必要な帯域幅があるかどうかです。

score 0 · Accepted Answer

Google App Engine は MapReduce も行います (少なくとも今のところ地図部分)。http://code.google.com/p/appengine-mapreduce/

database - クラウドでの MapReduce

5 に答える 5

Related

Reference