無料/低コストのHadoopを試すための大規模なデータセットを知っていますか?関連するポインタ/リンクはありがたいです。
好み:
少なくとも1GBのデータ。
Webサーバーの本番ログデータ。
私がこれまでに見つけたそれらのいくつか:
また、独自のクローラーを実行して、ウィキペディアなどのサイトからデータを収集できますか?これを行う方法についてのポインタもありがたいです。
無料/低コストのHadoopを試すための大規模なデータセットを知っていますか?関連するポインタ/リンクはありがたいです。
好み:
少なくとも1GBのデータ。
Webサーバーの本番ログデータ。
私がこれまでに見つけたそれらのいくつか:
また、独自のクローラーを実行して、ウィキペディアなどのサイトからデータを収集できますか?これを行う方法についてのポインタもありがたいです。
クロールとウィキペディアに関するあなたの質問についてのいくつかのポイント。
ウィキペディアのデータダンプにリンクし、 UMDのCloud9プロジェクトを使用して、Hadoopでこのデータを操作できます。
彼らはこれに関するページを持っています:ウィキペディアでの作業
リストに追加する別のデータソースは次のとおりです。
クローラーを使用してデータを生成することは、Hadoop/MapReduceに関する質問とは別の質問に投稿する必要があります。
明らかな情報源の1つ:スタックオーバーフローの3部作データダンプ。これらはクリエイティブコモンズライセンスの下で無料で利用できます。
これは、機械学習用の189個のデータセットのコレクションです(hadoop gの最も優れたアプリケーションの1つです): http ://archive.ics.uci.edu/ml/datasets.html
ログファイルではありませんが、OpenStreetMapの惑星ファイルを使用できる可能性があります:http ://wiki.openstreetmap.org/wiki/Planet.osm
CCライセンス、約160 GB(開梱)
大陸ごとに小さなファイルもあります:http ://wiki.openstreetmap.org/wiki/World