私はHadoop-MapReduceに精通しようとしています。この概念に関する理論的知識を研究した後、私はそれらについて実践したいと思います。
ただし、このテクノロジの小さなデータセット(最大3 Gb)は見つかりませんでした。練習するためのデータセットはどこにありますか?
または、Hadoop-MapReduceを練習するにはどうすればよいですか?言い換えれば、運動を提供するチュートリアルやウェブサイトはありますか?
ダウンロードして遊んでみることができる、公的にアクセス可能なデータセットです。以下にいくつかの例を示します。
http://www.netflixprize.com/index — コンペティションの一環として、ユーザー評価のデータ セットをリリースし、より優れたレコメンデーション アルゴリズムの開発を人々に呼びかけました。非圧縮データは2 GB+です。17,000 本の映画で 480,000 人のユーザーからの 1 億以上の映画の評価が含まれています。
http://aws.amazon.com/publicdatasets/ — たとえば、生物学的データセットの 1 つは、約 550 GB の注釈付きヒトゲノムデータです。経済学の下には、2000 年の米国国勢調査 (約 200 GB) などのデータ セットがあります。
http://boston.lti.cs.cmu.edu/Data/clueweb09/ — カーネギー メロン大学の言語技術研究所は、大規模な Web 研究を支援する ClueWeb09 データ セットをリリースしました。これは、10 の言語で 10 億の Web ページをクロールするものです。圧縮されていないデータ セットは 25 TB を占めます。
自分でデータセットを作成してみませんか?
非常に簡単なことは、ファイルに数百万の乱数を入力し、Hadoopを使用して、重複、トリプル、素数、因子に重複がある数値などを見つけることです。
もちろん、一般的なFacebookの友達を見つけるほど面白くはありませんが、Hadoopを少し練習すれば十分です。
または、 Hadoop-MapReduce を練習するにはどうすればよいですか? つまり、演習を提供するチュートリアルやウェブサイトはありますか?
ここに、始めるためのおもちゃの問題がいくつかあります。また、 Data-Intensive Text Processing with MapReduceも確認してください。MapReduce で実装されているページランク、結合、インデックス作成などのアルゴリズムのいくつかの疑似コードがあります。
時間の経過とともに収集された公開データ セットの一部を次に示します。あなたは小さなものを掘る必要があるかもしれません。
http://wiki.gephi.org/index.php/Datasets
Hadoop 用の大きなデータをダウンロード
http://datamob.org/datasets
http://konect.uni-koblenz.de/
http://snap.stanford.edu /data/
http://archive.ics.uci.edu/ml/
https://bitly.com/bundles/hmason/1
http://www.inside-r.org/howto/finding-data-internet
https ://docs.google.com/document/pub?id=1CNBmPiuvcU8gKTMvTQStIbTZcO_CTLMvPxxBrs0hHCg
http://ftp3.ncdc.noaa.gov/pub/data/noaa/1990/
http://data.cityofsantacruz.com/