これはばかげた質問のように思えるかもしれませんが、ビッグデータに関する話題が広まっているので、ビッグデータで使用される典型的なデータセットがどのように調達されているのか知りたいと思っていました. Twitter のキーワードは一般的な情報源のようですが、分析される巨大な Twitter フィード ファイルの起源は何ですか? オバマ氏やロムニー氏などの選挙関連の単語の分析があった例を見ました.誰かが Twitter API にクエリを実行し、数テラバイトのツイートを効果的にダウンロードしましたか? Twitter は、人々がサーバーにそれほど激しくアクセスすることを望んでいますか? または、このデータは、分析を行っている企業によって既に「所有」されていますか。奇妙なシナリオに聞こえるかもしれませんが、私が見た記事のほとんどは、これらの基本的な物理的な手順について曖昧です。これらの基本的な問題に対処する優れた記事やチュートリアルへのリンクは、非常に高く評価されます
2 に答える
3
ビッグデータのソースを取得するためのいくつかのアイデアを次に示します。
- あなたが指摘したように、 Twitterはデータを収集するのに最適な場所であり、実行すべき有益な分析がたくさんあります。データ サイエンスに関するオンライン コースを受講している場合、課題の 1 つは、実際に Twitter からライブ データを取得して分析する方法です。Twitter のライブ データを取得するプロセスが非常に詳細であるため、この課題を参照することをお勧めします。ライブ ストリームを数日間実行することもできますが、実行時間が長ければ長いほど、ギガバイトに相当するデータが生成される可能性があります。
- Web サイトがある場合は、Web サーバーのログを取得できます。小規模な Web サイトの場合はそれほど多くないかもしれませんが、大量のトラフィックが発生する大規模な Web サイトでは、これは膨大なデータ ソースです。StackOverflow Web サーバーのログがあれば何ができるか考えてみてください...
- Marinexploreで見つけることができる海洋データには、海洋データを分析したい場合にダウンロードして自分で分析できる巨大なデータセットがいくつかあります。
- 検索エンジンなどで使用される Web クローリング データ。すでに Amazon S3 にあるCommon Crawlで、Web クロールからのオープン データを確認できます。Hadoop ジョブを実行する準備ができています。Wikipedia からデータを取得することもできます。
- 現在、ゲノム データは非常に大規模に利用可能であり、 FTP 経由で 1000 ゲノム プロジェクトでゲノム データを見つけることができます。
- ...
より一般的には、Twitter だけでなく、より一般的なコンテキストでビッグデータを見ている場合は、さまざまなトピックに関する大きなデータセットがたくさんあるAmazon AWS データセットを見ることをお勧めします。
于 2013-05-22T05:51:16.620 に答える