41

無料/低コストのHadoopを試すための大規模なデータセットを知っていますか?関連するポインタ/リンクはありがたいです。

好み:

  • 少なくとも1GBのデータ。

  • Webサーバーの本番ログデータ。

私がこれまでに見つけたそれらのいくつか:

  1. ウィキペディアダンプ

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http://aws.amazon.com/publicdatasets/

また、独自のクローラーを実行して、ウィキペディアなどのサイトからデータを収集できますか?これを行う方法についてのポインタもありがたいです。

4

4 に答える 4

11

クロールとウィキペディアに関するあなたの質問についてのいくつかのポイント。

ウィキペディアのデータダンプにリンクし、 UMDのCloud9プロジェクトを使用して、Hadoopでこのデータを操作できます。

彼らはこれに関するページを持っています:ウィキペディアでの作業

リストに追加する別のデータソースは次のとおりです。

  • ClueWeb09- 1月から2月の間に収集された10億のWebページ。5TB圧縮。

クローラーを使用してデータを生成することは、Hadoop/MapReduceに関する質問とは別の質問に投稿する必要があります。

于 2010-04-22T22:17:04.867 に答える
10

明らかな情報源の1つ:スタックオーバーフローの3部作データダンプ。これらはクリエイティブコモンズライセンスの下で無料で利用できます。

于 2010-04-20T11:25:12.433 に答える
7

これは、機械学習用の189個のデータセットのコレクションです(hadoop gの最も優れたアプリケーションの1つです): http ://archive.ics.uci.edu/ml/datasets.html

于 2010-04-23T13:15:48.607 に答える
6

ログファイルではありませんが、OpenStreetMapの惑星ファイルを使用できる可能性があります:http ://wiki.openstreetmap.org/wiki/Planet.osm

CCライセンス、約160 GB(開梱)

大陸ごとに小さなファイルもあります:http ://wiki.openstreetmap.org/wiki/World

于 2010-04-20T11:33:06.977 に答える