2

Hadoop プロジェクトに取り組んでおり、ローカル クラスターで大量のデータを生成しています。Hadoop クラスターは実際の作業負荷に比べて非常に小さいため、すぐにクラウド ベースの Hadoop ソリューションを使用する予定ですが、現時点では、Windows Azure ベース、EMR、またはその他のいずれを使用するかを選択することはできません。大量のデータをローカルで生成しており、このデータを後で Hadoop で使用するという事実に基づいて、このデータをクラウド ベースのストレージに保存したいと考えています。

誰かの経験に基づいて選択するクラウド ストアを決定するための提案を探しています。前もって感謝します。

4

1 に答える 1

1

まず第一に、それは素晴らしい質問です。「Hadoopでデータがどのように処理されるか」を理解してみましょう。

  1. Hadoopでは、すべてのデータがHadoopクラスターで処理されます。つまり、データを処理すると、そのデータはソースからHadoopの重要なコンポーネントであるHDFSにコピーされます。
  2. 結果を取得するためにデータでMap/Reduceジョブを実行した後にのみデータがHDFSにコピーされる場合。
  3. つまり、データソースがどこにあるか(Amazon S3、Azure Blob、SQL Azure、SQL Server、オンプレミスソースなど)は関係ありません。データをソースからHDFSに移動/転送/コピーする必要があります。 Hadoopの制限。
  4. データがHadoopクラスターで処理されると、結果はジョブで構成した場所に保存されます。出力データソースは、HDFSまたはHadoopクラスターからアクセス可能な外部の場所にすることができます

  5. データをHDFSにコピーしたら、必要な限り1つのHDFSを維持できますが、Hadoopクラスターを使用するには料金を支払う必要があります。

  6. ある間隔でHadoopジョブを実行していて、データの移動/コピーをより高速に実行できる場合は、1)Hadoopクラスターを取得する2)データをコピーする3)ジョブを実行する4)クラスターを解放する戦略を立てることをお勧めします。

したがって、上記の詳細に基づいて、Hadoopクラスター用にクラウドでデータソースを選択する場合は、次のことを考慮する必要があります。

  1. 処理する大きなデータ(Hadoopクラスターでは通常)がある場合は、さまざまなデータソースと、それらのデータソースからHDFSへのデータのコピー/移動にかかる時間を考慮してください。これが最初のステップになるためです。

  2. できるだけ速くデータを出し入れできるように、ネットワーク遅延が最も低くなければならないデータソースを選択する必要があります。

  3. また、現在の場所からクラウドストアに大量のデータを移動する方法も検討する必要があります。複数のTBデータのアップロードには非常に時間がかかるため、データディスク(HDD /テープなど)を送信できるストレージを用意するのが最善のオプションです。

  4. Amazon EMR(すでに利用可能)、Windows Azure(CTPのHadoopOnAzure)、およびGoogle(Google Dremelに基づくプレビューのBigQuery)は、クラウドで事前構成されたHadoopクラスターを提供するため、Hadoopジョブを実行する場所を選択できます。クラウドストレージを検討してください。

  5. クラウドで他のHadoopクラスターを使用したいために、1つのクラウドデータストレージを選択して別のストレージに移動することにした場合でも、データを転送することはできますが、利用可能な時間とデータ転送のサポートを考慮してください。

  6. たとえば、HadooponAzureを使用すると、Amazon S3、Azure Blob Storage、SQL Server、SQL Azureなどのさまざまなデータソースを接続できるため、さまざまなデータソースがクラウドHadoopクラスターに最適です。

于 2012-05-08T04:34:20.997 に答える