ClouderaとHortonworksは、ApacheHadoopの基本概念の1つであるHDFSを使用します。MapRは独自のコンセプト/実装を使用しています。HDFSの代わりに、ネイティブファイルシステムを直接使用します。MapRのWebサイトで、このアプローチを使用して多くの利点を見つけることができます。
このアプローチの欠点は何ですか?
MapR の定義は少し異なります。HDFS は使用しませんが、代わりに独自の分散ファイル システムに NFS インターフェイスを提供します。これは、HDFS と同様にローカル FS に基づいています。
主な違いは、HDFS が Posix やその他の設計上の選択肢ではないという事実から来ています。
1. HDFS は可変ではありませんが、MapR は可変です。特に必要な場合は、利点と見なすことができます。
2. HDFS はマウントできませんが、MapR はマウントできます。Linux FS で動作する既存のツールを使用できます。
posix とは無関係: MapR のブロック サイズは小さく、単一障害点 (NameNode) はありません。MapR にはマルチサイト レプリケーションがあります。
暗い面も見てみましょう: a) (可変でない HDFS の代わりに) 可変データを持つと、システムがより複雑になります。
b) (少なくとも私にとっては) 巨大なクラスターで作業することは知られていません。(数百のノードについて聞いた)。
c) アーキテクチャの観点から (ブロックが小さい)、データの局所性をどのように実現できるかわかりません。
David さんによると、2013 年 1 月 30 日に Google クラウドの Google Compute Engine で MapR によって分単位の記録が設定されました。http://www.mapr.com/blog/hadoop-minutesort-recordで私たちのブログを参照してください。この記録は 2103 ノードのクラスターで設定され、1.5 TB のデータが 59 秒でソートされました。
また、MapR が 1 TB のデータを 54 秒でソートした Terasort レコードに関する以前のブログも参照してください。これは、Google Cloud の Google Compute Engine 上の 1003 ノード クラスタに設定されました。ブログはhttp://www.mapr.com/blog/record-setting-hadoop-in-the-cloudに投稿されています。
このトピックに関する多くの質問/回答については、answers.mapr.com も参照してください。