azure - Hadoop の生データへのアクセス

Question

私は data.seattle.gov データセットを見ていますが、一般的に、この大量の生データをすべて Hadoop クラスターに送信する方法を知りたいと思っています。Azureでhadoopを使用しています。

score 0 · Accepted Answer

data.seattle.gov は、パブリッククラウド上に構築されたものではなく、自己完結型のデータサービスのようです。データアクセス用の独自の Restful API があります。
最も簡単な方法は、関心のあるデータを Hadoop クラスターまたは S3 にダウンロードしてから、Amazon EC2 で EMR または独自のクラスターを使用することだと思います。
それら (data.seattle.gov) に関連するクエリ機能がある場合は、入力としてデータ参照を渡す Hadoop クラスターからオンデマンドでデータをクエリできます。これらのクエリで非常に深刻なデータ削減を行う場合にのみ機能する可能性があります。そうしないと、ネットワーク帯域幅がパフォーマンスを制限します。

score 0 · Accepted Answer

Windows Azure では、データセット (非構造化データなど) を Windows Azure ストレージに配置し、Hadoop クラスターからアクセスできます。

ブログ投稿を確認してください: Windows Azure 上の Apache Hadoop: Hadoop クラスターから Windows Azure ストレージへの接続:

http://blogs.msdn.com/b/avkashchauhan/archive/2012/01/05/apache-hadoop-on-windows-azure-connecting-to-windows-azure-storage-your-hadoop-cluster.aspx

また、Azure Marketplace (Gov Data Sets など) からデータを取得することもできます。

http://social.technet.microsoft.com/wiki/contents/articles/6857.how-to-import-data-to-hadoop-on-windows-azure-from-windows-azure-marketplace.aspx

azure - Hadoop の生データへのアクセス

2 に答える 2

Related

Reference