6

ClouderaとHortonworksは、ApacheHadoopの基本概念の1つであるHDFSを使用します。MapRは独自のコンセプト/実装を使用しています。HDFSの代わりに、ネイティブファイルシステムを直接使用します。MapRのWebサイトで、このアプローチを使用して多くの利点を見つけることができます。

このアプローチの欠点は何ですか?

4

4 に答える 4

5

MapR の定義は少し異なります。HDFS は使用しませんが、代わりに独自の分散ファイル システムに NFS インターフェイスを提供します。これは、HDFS と同様にローカル FS に基づいています。
主な違いは、HDFS が Posix やその他の設計上の選択肢ではないという事実から来ています。
1. HDFS は可変ではありませんが、MapR は可変です。特に必要な場合は、利点と見なすことができます。
2. HDFS はマウントできませんが、MapR はマウントできます。Linux FS で動作する既存のツールを使用できます。

posix とは無関係: MapR のブロック サイズは小さく、単一障害点 (NameNode) はありません。MapR にはマルチサイト レプリケーションがあります。

暗い面も見てみましょう: a) (可変でない HDFS の代わりに) 可変データを持つと、システムがより複雑になります。
b) (少なくとも私にとっては) 巨大なクラスターで作業することは知られていません。(数百のノードについて聞いた)。
c) アーキテクチャの観点から (ブロックが小さい)、データの局所性をどのように実現できるかわかりません。

于 2013-02-26T06:43:29.123 に答える
0

David さんによると、2013 年 1 月 30 日に Google クラウドの Google Compute Engine で MapR によって分単位の記録が設定されました。http://www.mapr.com/blog/hadoop-minutesort-recordで私たちのブログを参照してください。この記録は 2103 ノードのクラスターで設定され、1.5 TB のデータが 59 秒でソートされました。

また、MapR が 1 TB のデータを 54 秒でソートした Terasort レコードに関する以前のブログも参照してください。これは、Google Cloud の Google Compute Engine 上の 1003 ノード クラスタに設定されました。ブログはhttp://www.mapr.com/blog/record-setting-hadoop-in-the-cloudに投稿されています。

このトピックに関する多くの質問/回答については、answers.mapr.com も参照してください。

于 2013-03-03T04:31:27.620 に答える