hadoop - ビッグデータ - データはどこから来るのか?

Question

これはばかげた質問のように思えるかもしれませんが、ビッグデータに関する話題が広まっているので、ビッグデータで使用される典型的なデータセットがどのように調達されているのか知りたいと思っていました. Twitter のキーワードは一般的な情報源のようですが、分析される巨大な Twitter フィードファイルの起源は何ですか? オバマ氏やロムニー氏などの選挙関連の単語の分析があった例を見ました.誰かが Twitter API にクエリを実行し、数テラバイトのツイートを効果的にダウンロードしましたか? Twitter は、人々がサーバーにそれほど激しくアクセスすることを望んでいますか? または、このデータは、分析を行っている企業によって既に「所有」されていますか。奇妙なシナリオに聞こえるかもしれませんが、私が見た記事のほとんどは、これらの基本的な物理的な手順について曖昧です。これらの基本的な問題に対処する優れた記事やチュートリアルへのリンクは、非常に高く評価されます

score 3 · Accepted Answer

ビッグデータのソースを取得するためのいくつかのアイデアを次に示します。

あなたが指摘したように、 Twitterはデータを収集するのに最適な場所であり、実行すべき有益な分析がたくさんあります。データサイエンスに関するオンラインコースを受講している場合、課題の 1 つは、実際に Twitter からライブデータを取得して分析する方法です。Twitter のライブデータを取得するプロセスが非常に詳細であるため、この課題を参照することをお勧めします。ライブストリームを数日間実行することもできますが、実行時間が長ければ長いほど、ギガバイトに相当するデータが生成される可能性があります。
Web サイトがある場合は、Web サーバーのログを取得できます。小規模な Web サイトの場合はそれほど多くないかもしれませんが、大量のトラフィックが発生する大規模な Web サイトでは、これは膨大なデータソースです。StackOverflow Web サーバーのログがあれば何ができるか考えてみてください...
Marinexploreで見つけることができる海洋データには、海洋データを分析したい場合にダウンロードして自分で分析できる巨大なデータセットがいくつかあります。
検索エンジンなどで使用される Web クローリングデータ。すでに Amazon S3 にあるCommon Crawlで、Web クロールからのオープンデータを確認できます。Hadoop ジョブを実行する準備ができています。Wikipedia からデータを取得することもできます。
現在、ゲノムデータは非常に大規模に利用可能であり、 FTP 経由で 1000 ゲノムプロジェクトでゲノムデータを見つけることができます。
...

より一般的には、Twitter だけでなく、より一般的なコンテキストでビッグデータを見ている場合は、さまざまなトピックに関する大きなデータセットがたくさんあるAmazon AWS データセットを見ることをお勧めします。

hadoop - ビッグデータ - データはどこから来るのか?

2 に答える 2

Related

Reference