私はhadoopの初心者です。
ヒューズよりも mapR の方が Hadoop HDFS をマウントするのに適していると聞きました。
しかし、関連記事のほとんどは、純粋な Apache Hadoop ではなく、mapR Hadoop について説明しているだけです。
純粋なApache HadoopをmapRでマウントした経験のある人はいますか?
前もって感謝します。
MapR は、HDFS をマウントするための単なる方法ではありません。
MapR には、Hadoop と多くの Apache エコシステム コンポーネント、および Cascading などの他の多くの非 Apache コンポーネントが含まれています。また、Solr を含む LucidWorks も含まれています。
MapR には、MaprFS と呼ばれる HDFS の再実装も含まれています。MaprFS はパフォーマンスが高く、読み取り/書き込みセマンティクスがあり、書き込み中の読み取りが可能で、トランザクション的に正しいミラーとスナップショットをサポートし、名前ノードがなく、フェデレーションの混乱なしにスケーリングし、HA NameNode のすべての混乱がなく、アクセス可能な本質的に HA です。分散 NFS システム経由。
ああ、MaprFS は HDFS API に加えて、NFS 経由の POSIX 風のアクセスに加えて、HBase API もサポートしています。
MapR の map-reduce レイヤーは、ファイル システムの非常に高いパフォーマンス機能を利用するために部分的に書き直されました。これが、MapR が昨年秋に分のソート記録を破った理由です。
ネーミングはさておき、MapR には、他のディストリビューションで入手できるすべてのオープン ソース ソフトウェアが含まれています。「Pure Hadoop」はほとんど役に立たない。Pig および/または Hive が必要です。おそらくCascading/Scaldingを調べる必要があります。Mahout が必要な場合があります。システムを従来のデータ ソースとレポート システムに接続する必要があることは間違いありません。
NFS または Fuze を介して HDFS をマウントしても、目的の場所に移動できないことに注意してください。HDFS には、NFS または通常のファイル システム API を介したアクセスに適したセマンティクスがありません。ただ、妥協点が多すぎる。
一方、MapR を使用すると、NFS を介してクラスター ファイル システム上で MySQL や Postgress などのデータベースを実行することもできます。
MapR には 3 つのエディションがあります。
M3 は無料で、すべてのパフォーマンスとスケーラビリティを提供しますが、単一の NFS サーバーに制限され、ミラー、スナップショット、ボリュームの局所性、または HBase 互換 API はありません (もちろん、HBase 自体を実行できます)。M3 では HA も劣化しているため、特定の機能のフェイルオーバーに 1 時間かかります。
M5 は、無料試用期間後に料金が発生し、スナップショット、ミラー、一部のデータを異なるトポロジに強制する機能、および無制限の NFS サーバーを提供します。
M7 もコストがかかり、M5 ができるすべての機能に HBase API を追加します。
詳細については、mapr.com を参照してください。
テッドも言ったことを要約すると、
あなたは本当に「純粋なApache HadoopをmapRでマウントしていますか?」ではありません。Hadoop を HDFS と混同しないでください。それらは会話中に交換可能である傾向がありますが、HDFS は実際の分散ファイルシステムを明示的に参照します (したがって、HDFS の DFS)。HDFS は、特定の Hadoop コマンドを使用して対話する必要があります。つまり、「hadoop dfs ls /」は、hdfs のルート コンテンツを一覧表示します。
MapR は、hadoop がデフォルトで提供するものをはるかに超えています。1 つは、より効率的な maprfs (hdfs の書き換え) を使用してファイルシステムと対話できることです。他にできることは、実際に HDFS/MapRFS を NFS マウントして、特別なことをしなくてもファイルシステムをネイティブに操作できるようにすることです。他の NFS ファイルシステムと同じように扱われますが、この場合はクラスター全体に分散されます。