java - Hadoopの小さなデータセット-MapReduce

Question

私はHadoop-MapReduceに精通しようとしています。この概念に関する理論的知識を研究した後、私はそれらについて実践したいと思います。

ただし、このテクノロジの小さなデータセット（最大3 Gb）は見つかりませんでした。練習するためのデータセットはどこにありますか？

または、Hadoop-MapReduceを練習するにはどうすればよいですか？言い換えれば、運動を提供するチュートリアルやウェブサイトはありますか？

score 7 · Accepted Answer

ダウンロードして遊んでみることができる、公的にアクセス可能なデータセットです。以下にいくつかの例を示します。

http://www.netflixprize.com/index — コンペティションの一環として、ユーザー評価のデータセットをリリースし、より優れたレコメンデーションアルゴリズムの開発を人々に呼びかけました。非圧縮データは2 GB+です。17,000 本の映画で 480,000 人のユーザーからの 1 億以上の映画の評価が含まれています。

http://aws.amazon.com/publicdatasets/ — たとえば、生物学的データセットの 1 つは、約 550 GB の注釈付きヒトゲノムデータです。経済学の下には、2000 年の米国国勢調査 (約 200 GB) などのデータセットがあります。

http://boston.lti.cs.cmu.edu/Data/clueweb09/ — カーネギーメロン大学の言語技術研究所は、大規模な Web 研究を支援する ClueWeb09 データセットをリリースしました。これは、10 の言語で 10 億の Web ページをクロールするものです。圧縮されていないデータセットは 25 TB を占めます。

score 5 · Accepted Answer

自分でデータセットを作成してみませんか？

非常に簡単なことは、ファイルに数百万の乱数を入力し、Hadoopを使用して、重複、トリプル、素数、因子に重複がある数値などを見つけることです。

もちろん、一般的なFacebookの友達を見つけるほど面白くはありませんが、Hadoopを少し練習すれば十分です。

score 3 · Accepted Answer

または、 Hadoop-MapReduce を練習するにはどうすればよいですか? つまり、演習を提供するチュートリアルやウェブサイトはありますか?

ここに、始めるためのおもちゃの問題がいくつかあります。また、 Data-Intensive Text Processing with MapReduceも確認してください。MapReduce で実装されているページランク、結合、インデックス作成などのアルゴリズムのいくつかの疑似コードがあります。

時間の経過とともに収集された公開データセットの一部を次に示します。あなたは小さなものを掘る必要があるかもしれません。

http://wiki.gephi.org/index.php/Datasets
Hadoop 用の大きなデータをダウンロード
 http://datamob.org/datasets
http://konect.uni-koblenz.de/
http://snap.stanford.edu /data/
http://archive.ics.uci.edu/ml/
https://bitly.com/bundles/hmason/1
http://www.inside-r.org/howto/finding-data-internet
https ://docs.google.com/document/pub?id=1CNBmPiuvcU8gKTMvTQStIbTZcO_CTLMvPxxBrs0hHCg
http://ftp3.ncdc.noaa.gov/pub/data/noaa/1990/
http://data.cityofsantacruz.com/

java - Hadoopの小さなデータセット-MapReduce

3 に答える 3

Related

Reference