azure - Hadoop の場合、Amazon S3 と Azure Blob Store のどちらのデータストレージを選択しますか?

Question

Hadoop プロジェクトに取り組んでおり、ローカルクラスターで大量のデータを生成しています。Hadoop クラスターは実際の作業負荷に比べて非常に小さいため、すぐにクラウドベースの Hadoop ソリューションを使用する予定ですが、現時点では、Windows Azure ベース、EMR、またはその他のいずれを使用するかを選択することはできません。大量のデータをローカルで生成しており、このデータを後で Hadoop で使用するという事実に基づいて、このデータをクラウドベースのストレージに保存したいと考えています。

誰かの経験に基づいて選択するクラウドストアを決定するための提案を探しています。前もって感謝します。

score 1 · Accepted Answer

まず第一に、それは素晴らしい質問です。「Hadoopでデータがどのように処理されるか」を理解してみましょう。

Hadoopでは、すべてのデータがHadoopクラスターで処理されます。つまり、データを処理すると、そのデータはソースからHadoopの重要なコンポーネントであるHDFSにコピーされます。
結果を取得するためにデータでMap/Reduceジョブを実行した後にのみデータがHDFSにコピーされる場合。
つまり、データソースがどこにあるか（Amazon S3、Azure Blob、SQL Azure、SQL Server、オンプレミスソースなど）は関係ありません。データをソースからHDFSに移動/転送/コピーする必要があります。 Hadoopの制限。
データがHadoopクラスターで処理されると、結果はジョブで構成した場所に保存されます。出力データソースは、HDFSまたはHadoopクラスターからアクセス可能な外部の場所にすることができます
データをHDFSにコピーしたら、必要な限り1つのHDFSを維持できますが、Hadoopクラスターを使用するには料金を支払う必要があります。
ある間隔でHadoopジョブを実行していて、データの移動/コピーをより高速に実行できる場合は、1）Hadoopクラスターを取得する2）データをコピーする3）ジョブを実行する4）クラスターを解放する戦略を立てることをお勧めします。

したがって、上記の詳細に基づいて、Hadoopクラスター用にクラウドでデータソースを選択する場合は、次のことを考慮する必要があります。

処理する大きなデータ（Hadoopクラスターでは通常）がある場合は、さまざまなデータソースと、それらのデータソースからHDFSへのデータのコピー/移動にかかる時間を考慮してください。これが最初のステップになるためです。
できるだけ速くデータを出し入れできるように、ネットワーク遅延が最も低くなければならないデータソースを選択する必要があります。
また、現在の場所からクラウドストアに大量のデータを移動する方法も検討する必要があります。複数のTBデータのアップロードには非常に時間がかかるため、データディスク（HDD /テープなど）を送信できるストレージを用意するのが最善のオプションです。
Amazon EMR（すでに利用可能）、Windows Azure（CTPのHadoopOnAzure）、およびGoogle（Google Dremelに基づくプレビューのBigQuery）は、クラウドで事前構成されたHadoopクラスターを提供するため、Hadoopジョブを実行する場所を選択できます。クラウドストレージを検討してください。
クラウドで他のHadoopクラスターを使用したいために、1つのクラウドデータストレージを選択して別のストレージに移動することにした場合でも、データを転送することはできますが、利用可能な時間とデータ転送のサポートを考慮してください。
たとえば、HadooponAzureを使用すると、Amazon S3、Azure Blob Storage、SQL Server、SQL Azureなどのさまざまなデータソースを接続できるため、さまざまなデータソースがクラウドHadoopクラスターに最適です。

azure - Hadoop の場合、Amazon S3 と Azure Blob Store のどちらのデータ ストレージを選択しますか?

1 に答える 1

Related

Reference

azure - Hadoop の場合、Amazon S3 と Azure Blob Store のどちらのデータストレージを選択しますか?