私は data.seattle.gov データ セットを見ていますが、一般的に、この大量の生データをすべて Hadoop クラスターに送信する方法を知りたいと思っています。Azureでhadoopを使用しています。
2 に答える
data.seattle.gov は、パブリック クラウド上に構築されたものではなく、自己完結型のデータ サービスのようです。データアクセス用の独自の Restful API があります。
最も簡単な方法は、関心のあるデータを Hadoop クラスターまたは S3 にダウンロードしてから、Amazon EC2 で EMR または独自のクラスターを使用することだと思います。
それら (data.seattle.gov) に関連するクエリ機能がある場合は、入力としてデータ参照を渡す Hadoop クラスターからオンデマンドでデータをクエリできます。これらのクエリで非常に深刻なデータ削減を行う場合にのみ機能する可能性があります。そうしないと、ネットワーク帯域幅がパフォーマンスを制限します。
Windows Azure では、データ セット (非構造化データなど) を Windows Azure ストレージに配置し、Hadoop クラスターからアクセスできます。
ブログ投稿を確認してください: Windows Azure 上の Apache Hadoop: Hadoop クラスターから Windows Azure ストレージへの接続:
また、Azure Marketplace (Gov Data Sets など) からデータを取得することもできます。