0

初心者の質問。Hadoop/MapReduce に関するこの記事を読みました

http://www.amazedsaint.com/2012/06/analyzing-some-big-data-using-c-azure.html

Hadoop の概念と、map とは何か、reduce とは何かがわかりました。

私にとっての問題は、私のアプリケーションが Hadoop クラスターの上にある場合です。

1) もうデータベースは必要ありませんか?

2) ASP.NET MVC アプリケーションからデータを最初に Hadoop に取り込むにはどうすればよいですか? それが Stackoverflow (MVC でコード化されている) だとしましょう。この質問を投稿した後、この質問とタイトル、本文、タグを Hadoop に入れるにはどうすればよいですか?

3) 上記の記事では、Stakoverflow で使用されている「名前空間」とその使用回数に関するデータを収集しています。

このサイトの stackoverflow が mapreducer からの結果データをリアルタイムで表示したい場合、どのようにしますか?

初歩的な質問で申し訳ありません。ここでは、一度に 1 つずつ鮮明な画像を取得しようとしています。

4

1 に答える 1

1

1) それはアプリケーションによって異なります。ほとんどの場合、ユーザー管理などのためにデータベースが必要です。

2) Amazon EMR を使用している場合は、.NET API (または他の方法) を使用して入力を S3 に配置し、同じ方法で結果を取得します。また、API を介して EMR アカウントを監視することもできます。かなり簡単です。

3) Hadoop は実際にはリアルタイム環境ではなく、バッチ システムです。受信データを継続的に処理することでリアルタイムをシミュレートできますが、それでも真のリアルタイムではありません。

Amazon EMR .NETのドキュメントを参照し、Hadoop (スタックと概念を理解するためのHadoop in Practiceなど) と Hive (プログラミング Hiveなど)に関する優れた本を入手することをお勧めします。

また、もちろん、最適な環境を混在させることもできます。たとえば、.NET アプリには Azure Web サイトと SQLAzure を使用し、hadoop/hive には Amazon EMR を使用します。コスト モデルを考慮して、すべてを 1 か所に保管する必要はありません。

お役に立てれば。

于 2013-05-24T23:52:22.897 に答える