4

私はHadoop-MapReduceに精通しようとしています。この概念に関する理論的知識を研究した後、私はそれらについて実践したいと思います。

ただし、このテクノロジの小さなデータセット(最大3 Gb)は見つかりませんでした。練習するためのデータセットはどこにありますか?

または、Hadoop-MapReduceを練習するにはどうすればよいですか?言い換えれば、運動を提供するチュートリアルやウェブサイトはありますか?

4

3 に答える 3

7

ダウンロードして遊んでみることができる、公的にアクセス可能なデータセットです。以下にいくつかの例を示します。

http://www.netflixprize.com/index — コンペティションの一環として、ユーザー評価のデータ セットをリリースし、より優れたレコメンデーション アルゴリズムの開発を人々に呼びかけました。非圧縮データは2 GB+です。17,000 本の映画で 480,000 人のユーザーからの 1 億以上の映画の評価が含まれています。

http://aws.amazon.com/publicdatasets/ — たとえば、生物学的データセットの 1 つは、約 550 GB の注釈付きヒトゲノムデータです。経済学の下には、2000 年の米国国勢調査 (約 200 GB) などのデータ セットがあります。

http://boston.lti.cs.cmu.edu/Data/clueweb09/ — カーネギー メロン大学の言語技術研究所は、大規模な Web 研究を支援する ClueWeb09 データ セットをリリースしました。これは、10 の言語で 10 億の Web ページをクロールするものです。圧縮されていないデータ セットは 25 TB を占めます。

于 2012-10-16T14:29:50.130 に答える
5

自分でデータセットを作成してみませんか?

非常に簡単なことは、ファイルに数百万の乱数を入力し、Hadoopを使用して、重複、トリプル、素数、因子に重複がある数値などを見つけることです。

もちろん、一般的なFacebookの友達を見つけるほど面白くはありませんが、Hadoopを少し練習すれば十分です。

于 2012-10-16T13:11:53.870 に答える
3

または、 Hadoop-MapReduce を練習するにはどうすればよいですか? つまり、演習を提供するチュートリアルやウェブサイトはありますか?

ここに、始めるためのおもちゃの問題がいくつかあります。また、 Data-Intensive Text Processing with MapReduceも確認してください。MapReduce で実装されているページランク、結合、インデックス作成などのアルゴリズムのいくつかの疑似コードがあります。

時間の経過とともに収集された公開データ セットの一部を次に示します。あなたは小さなものを掘る必要があるかもしれません。

http://wiki.gephi.org/index.php/Datasets
Hadoop 用の大きなデータをダウンロード
http://datamob.org/datasets
http://konect.uni-koblenz.de/
http://snap.stanford.edu /data/
http://archive.ics.uci.edu/ml/
https://bitly.com/bundles/hmason/1
http://www.inside-r.org/howto/finding-data-internet
https ://docs.google.com/document/pub?id=1CNBmPiuvcU8gKTMvTQStIbTZcO_CTLMvPxxBrs0hHCg
http://ftp3.ncdc.noaa.gov/pub/data/noaa/1990/
http://data.cityofsantacruz.com/

于 2012-10-16T14:49:50.917 に答える