Hadoop デモを実行するには、大きなデータ (10GB 以上) が必要です。ダウンロードできる場所を知っている人。私にお知らせください。
7 に答える
次のWebサイトから100万曲のデータセットをダウンロードすることをお勧めします。
http://labrosa.ee.columbia.edu/millionsong/
Millions Songs Datasetの最も優れている点は、1GB(約10000曲)、10GB、50GB、または約300GBのデータセットをHadoopクラスターにダウンロードして、必要なテストを実行できることです。私はそれを使うのが大好きで、このデータセットを使って多くを学びます。
まず、AZから任意の1文字で始まるデータセットをダウンロードできます。これは1GBから20GBの範囲になります。Infochimpサイトを使用することもできます。
http://www.infochimps.com/collections/million-songs
次のブログの1つで、1GBのデータセットをダウンロードしてPigスクリプトを実行する方法を示しました。
Tom White は彼の著書 (Hadoop: 決定版ガイド) でサンプルの気象データ セットについて言及しました。
http://hadoopbook.com/code.html
100 年以上のデータが利用可能です。
wget
Linuxでデータをプルするために使用しました。2007 年自体のデータ サイズは 27 GB です。
FTP
リンクとしてホストされています。したがって、任意の FTP ユーティリティでダウンロードできます。
ftp://ftp.ncdc.noaa.gov/pub/data/noaa/
完全な詳細については、私のブログをチェックしてください:
http://myjourneythroughhadoop.blogspot.in/2013/07/how-to-download-weather-data-for-your.html
興味があるかもしれない記事「Hadoop を使用して、WikiHadoop を使用してウィキペディアの完全なダンプ ファイルを分析する」。
ウィキペディアのページ ビューの統計を調べている場合は、これが役立つ可能性があります。2007 年から現在までの pagecount ファイルをダウンロードできます。ファイルのサイズの目安として、1 日で 1.9 GB (ここでは 2012-05-01 を選択) が 24 個のファイルに分散しています。
現在、31 か国に、さまざまな形式で公開データを公開しているサイトがあります ( http://www.data.gov/opendatasites ) 。さらに、世界銀行はhttp://data.worldbank.org/data-catalogでデータを入手できます。
Amazon で利用できるパブリック データセットがあります:
http://aws.amazon.com/publicdatasets/
そこでデモ クラスターを実行することを検討することをお勧めします。
また、Common Crawl からクロールされた Web の優れたデータセットもあり、Amazon s3 でも利用できます。http://commoncrawl.org/
「Internet Census 2012」では、インターネット全体の分散スキャンによって収集されたデータは次のようになります。
発表: http://seclists.org/fulldisclosure/2013/Mar/166
データ: http://internetcensus2012.bitbucket.org/
データ全体は 7 TB で、(明らかに) torrent でのみ利用できます。
データをダウンロードして公開するよりも、データを生成する方が速い場合があります。これには、問題のドメインを制御できるという利点があり、デモを視聴している人々にとって何か意味のあるものにすることができます。