hadoop - Hadoop 用の大きなデータをダウンロードする

ウィキペディアのページビューの統計を調べている場合は、これが役立つ可能性があります。2007 年から現在までの pagecount ファイルをダウンロードできます。ファイルのサイズの目安として、1 日で 1.9 GB (ここでは 2012-05-01 を選択) が 24 個のファイルに分散しています。

現在、31 か国に、さまざまな形式で公開データを公開しているサイトがあります ( http://www.data.gov/opendatasites ) 。さらに、世界銀行はhttp://data.worldbank.org/data-catalogでデータを入手できます。

score 10 · Accepted Answer

Amazon で利用できるパブリックデータセットがあります:
http://aws.amazon.com/publicdatasets/
そこでデモクラスターを実行することを検討することをお勧めします。
また、Common Crawl からクロールされた Web の優れたデータセットもあり、Amazon s3 でも利用できます。http://commoncrawl.org/

score 3 · Accepted Answer

「Internet Census 2012」では、インターネット全体の分散スキャンによって収集されたデータは次のようになります。

発表: http://seclists.org/fulldisclosure/2013/Mar/166

データ: http://internetcensus2012.bitbucket.org/

データ全体は 7 TB で、(明らかに) torrent でのみ利用できます。

score 0 · Accepted Answer

データをダウンロードして公開するよりも、データを生成する方が速い場合があります。これには、問題のドメインを制御できるという利点があり、デモを視聴している人々にとって何か意味のあるものにすることができます。

hadoop - Hadoop 用の大きなデータをダウンロードする

7 に答える 7

Related

Reference