resources - Hadoopを試すための無料の大規模データセット

Question

無料/低コストのHadoopを試すための大規模なデータセットを知っていますか？関連するポインタ/リンクはありがたいです。

好み：

私がこれまでに見つけたそれらのいくつか：

また、独自のクローラーを実行して、ウィキペディアなどのサイトからデータを収集できますか？これを行う方法についてのポインタもありがたいです。

score 11 · Accepted Answer

クロールとウィキペディアに関するあなたの質問についてのいくつかのポイント。

ウィキペディアのデータダンプにリンクし、 UMDのCloud9プロジェクトを使用して、Hadoopでこのデータを操作できます。

彼らはこれに関するページを持っています：ウィキペディアでの作業

リストに追加する別のデータソースは次のとおりです。

クローラーを使用してデータを生成することは、Hadoop/MapReduceに関する質問とは別の質問に投稿する必要があります。

score 10 · Accepted Answer

明らかな情報源の1つ：スタックオーバーフローの3部作データダンプ。これらはクリエイティブコモンズライセンスの下で無料で利用できます。

score 7 · Accepted Answer

これは、機械学習用の189個のデータセットのコレクションです（hadoop gの最も優れたアプリケーションの1つです）： http ：//archive.ics.uci.edu/ml/datasets.html

score 6 · Accepted Answer

ログファイルではありませんが、OpenStreetMapの惑星ファイルを使用できる可能性があります：http ：//wiki.openstreetmap.org/wiki/Planet.osm

CCライセンス、約160 GB（開梱）

大陸ごとに小さなファイルもあります：http ：//wiki.openstreetmap.org/wiki/World

4 に答える 4