0

Amazon MapReduce を除いて、大量のデータを処理するために他にどのようなオプションが必要ですか?

4

5 に答える 5

1

MicrosoftもWindowsAzureでHadoop/MapReduceを実行していますが、CTPは制限されていますが、以下のリンクで情報を提供し、CTPアクセスをリクエストできます 。https : //www.hadooponazure.com/ApacheHadoopの開発者プレビュー- Windows Azure向けのベースのサービスは、招待により利用できます。

さらに、Google BigQueryを試すこともできます。この場合、最初にデータをGoogle独自のストレージに移動してから、BigQueryを実行する必要があります。BigQueryはMapReduceに似たDremelに基づいていますが、列ベースの検索処理により高速であることを忘れないでください。

もう1つのオプションは、Pythonとpigをインテリジェントに使用してジョブを簡単に記述し、結果を視覚化するMortarDataを使用することです。とてもおもしろいと思いました。http: //mortardata.com/# !/how_it_worksをご覧ください。

于 2012-04-18T15:36:41.613 に答える
1

大量のデータをリアルタイムで処理したい場合 (twitter フィード、ウェブサイトからのクリック ストリーム) など、マシンのクラスターを使用して、最近 twitter からオープンソース化された"storm"をチェックしてください。

標準の Apache Hadoop は、遅延が問題にならないペタバイト単位のデータをバッチで処理するのに適しています。

前述の DataStax の Brisk は、ライブ データに対して MapReduce 並列処理を使用できるという点で非常にユニークです。

パイプラインを使用して処理できるHadoop Onlineのような他の取り組みもあり ます。

Google BigQuery は明らかに、csv (区切りレコード) を使用する別のオプションであり、設定なしでスライス アンド ダイスできます。使い方は非常に簡単ですが、料金を支払う必要がないプレミアム サービスです。処理されたバイト数 (ただし、最初の 100 GB/月は無料です)。

于 2012-06-12T23:01:03.713 に答える
1

DataStax Briskは優れています。

フルオンのディストリビューション

  1. アパッチ・ハドゥープ
  2. Apache Hadoop を含む Cloudera のディストリビューション (正式名称)
  3. Apache Hadoop の IBM ディストリビューション
  4. DataStax ブリスク
  5. Amazon Elastic MapReduce

HDFS の代替

  1. マプル
  2. Appistry CloudIQ ストレージ Hadoop エディション
  3. IBM グローバル パラレル ファイル システム (GPFS)
  4. クラウドストア

Hadoop MapReduce の代替案

  1. パーベイシブ データラッシュ
  2. カスケード
  3. Hive (Cloudera のディストリビューションに含まれる Apache サブプロジェクト)
  4. Pig (Yahoo が開発した言語で、Cloudera のディストリビューションに含まれています)

参照: http: //gigaom.com/cloud/as-big-data-takes-off-the-hadoop-wars-begin/

于 2012-06-12T07:28:33.867 に答える
0

クラウドにとどまりたい場合は、EC2インスタンスを起動して永続的なHadoopクラスターを作成することもできます。Clouderaには、このようなクラスターのセットアップに関するリソースがたくさんあります

ただし、このオプションは、1日を通して実行するジョブが多く、クラスターをかなりビジー状態にしない限り、AmazonElasticMapreduceよりも費用効果が低くなります。

もう1つのオプションは、独自のクラスターを構築することです。Hadoopの優れた機能の1つは、異種のハードウェアを適切なコンピューティング能力を備えたクラスターにまとめることができることです。サーバールームのラックに住むことができる種類。敷設されている古いハードウェアはすでに支払われていることを考えると、そのようなクラスターを稼働させるための唯一のコストは新しいドライブであり、おそらくそれらのボックスの容量を最大化するのに十分なメモリースティックです。その場合、そのようなアプローチの費用対効果は、Amazonよりもはるかに優れています。唯一の注意点は、すべてのデータをクラスターのHDFSに定期的にプルダウンするために必要な帯域幅があるかどうかです。

于 2011-02-25T22:40:54.527 に答える
0

Google App Engine は MapReduce も行います (少なくとも今のところ地図部分)。http://code.google.com/p/appengine-mapreduce/

于 2011-02-25T23:45:17.053 に答える