hadoop - ClouderaやHortonworksと比較したHadoopディストリビューションMapRの欠点は何ですか？

Question

ClouderaとHortonworksは、ApacheHadoopの基本概念の1つであるHDFSを使用します。MapRは独自のコンセプト/実装を使用しています。HDFSの代わりに、ネイティブファイルシステムを直接使用します。MapRのWebサイトで、このアプローチを使用して多くの利点を見つけることができます。

このアプローチの欠点は何ですか？

score 5 · Accepted Answer

MapR の定義は少し異なります。HDFS は使用しませんが、代わりに独自の分散ファイルシステムに NFS インターフェイスを提供します。これは、HDFS と同様にローカル FS に基づいています。
主な違いは、HDFS が Posix やその他の設計上の選択肢ではないという事実から来ています。
1. HDFS は可変ではありませんが、MapR は可変です。特に必要な場合は、利点と見なすことができます。
2. HDFS はマウントできませんが、MapR はマウントできます。Linux FS で動作する既存のツールを使用できます。

posix とは無関係: MapR のブロックサイズは小さく、単一障害点 (NameNode) はありません。MapR にはマルチサイトレプリケーションがあります。

暗い面も見てみましょう: a) (可変でない HDFS の代わりに) 可変データを持つと、システムがより複雑になります。
b) (少なくとも私にとっては) 巨大なクラスターで作業することは知られていません。（数百のノードについて聞いた）。
c) アーキテクチャの観点から (ブロックが小さい)、データの局所性をどのように実現できるかわかりません。

score 0 · Accepted Answer

David さんによると、2013 年 1 月 30 日に Google クラウドの Google Compute Engine で MapR によって分単位の記録が設定されました。http://www.mapr.com/blog/hadoop-minutesort-recordで私たちのブログを参照してください。この記録は 2103 ノードのクラスターで設定され、1.5 TB のデータが 59 秒でソートされました。

また、MapR が 1 TB のデータを 54 秒でソートした Terasort レコードに関する以前のブログも参照してください。これは、Google Cloud の Google Compute Engine 上の 1003 ノードクラスタに設定されました。ブログはhttp://www.mapr.com/blog/record-setting-hadoop-in-the-cloudに投稿されています。

このトピックに関する多くの質問/回答については、answers.mapr.com も参照してください。

hadoop - ClouderaやHortonworksと比較したHadoopディストリビューションMapRの欠点は何ですか？

4 に答える 4

Related

Reference