0

私は data.seattle.gov データ セットを見ていますが、一般的に、この大量の生データをすべて Hadoop クラスターに送信する方法を知りたいと思っています。Azureでhadoopを使用しています。

4

2 に答える 2

0

data.seattle.gov は、パブリック クラウド上に構築されたものではなく、自己完結型のデータ サービスのようです。データアクセス用の独自の Restful API があります。
最も簡単な方法は、関心のあるデータを Hadoop クラスターまたは S3 にダウンロードしてから、Amazon EC2 で EMR または独自のクラスターを使用することだと思います。
それら (data.seattle.gov) に関連するクエリ機能がある場合は、入力としてデータ参照を渡す Hadoop クラスターからオンデマンドでデータをクエリできます。これらのクエリで非常に深刻なデータ削減を行う場合にのみ機能する可能性があります。そうしないと、ネットワーク帯域幅がパフォーマンスを制限します。

于 2012-08-19T12:42:27.410 に答える
0

Windows Azure では、データ セット (非構造化データなど) を Windows Azure ストレージに配置し、Hadoop クラスターからアクセスできます。

ブログ投稿を確認してください: Windows Azure 上の Apache Hadoop: Hadoop クラスターから Windows Azure ストレージへの接続:

http://blogs.msdn.com/b/avkashchauhan/archive/2012/01/05/apache-hadoop-on-windows-azure-connecting-to-windows-azure-storage-your-hadoop-cluster.aspx

また、Azure Marketplace (Gov Data Sets など) からデータを取得することもできます。

http://social.technet.microsoft.com/wiki/contents/articles/6857.how-to-import-data-to-hadoop-on-windows-azure-from-windows-azure-marketplace.aspx

于 2012-08-18T23:58:25.943 に答える