20

利用可能なさまざまなHadoopディストリビューション間のさまざまな違いを誰かが概説できますか:

Apache Hadoop ディストリビューションをベースラインとして使用します。

標準の Apache Hadoop ディストリビューションでこれらのディストリビューションのいずれかを使用する正当な理由はありますか?

4

4 に答える 4

14

免責事項:私はこの夏Clouderaでインターンしました(しかし私の親友の何人かはYahoo!にいます:-))

Yahooディストリビューションは、クラスターの一部のサブセットで実行(実行?)されるHadoop20のバージョンです。安定性、バグ修正などのパッチのセットが含まれています。これはソースリリースです。rpmやdebianパッケージなどの管理者向けの機能はありません。

Clouderaディストリビューションは、rpmおよびdebsとしてのパッケージです(ソースも利用可能です)。これは、標準的な方法などでアップデートを入手できることを意味します。また、安定性とバグ修正パッチも含まれています。それは常に維持されています(Yahooがそうではないということは言うまでもありません-githubにアクセスして、最後に更新されたのはいつかを確認できると思います)。また、PigとHiveもパッケージ化されています。

ClouderaのHadoop20のディストリビューションはベータ版であり、18は安定していると見なされます(これについてはClouderaブログで詳しく説明しています)。18バージョンには、HiveとPigのパッケージも含まれています。20の場合、自分でビルドする必要があります(パッチは存在しますが、20をサポートするPigまたはHiveの公式リリースはまだありません)。ClouderaバージョンとYahooバージョンの20の間にはかなりの重複があるかもしれません。どちらもマニフェストを提供するので、確認できます。Clouderaのディストリビューションの最新のドキュメントはhttp://archive.cloudera.comにあります

Yahooはそれらの配布をサポートしていません。彼らはパッチを当てたバージョンをコミュニティへのサービスとして提供しているので、興味のある人はYahooが内部で実行しているものを構築することができます。Yahooクラスターのサイズを考えると、これは重要な貢献です。特に、JIRAを常にフォローしているHadoop開発者でない場合はそうです。Clouderaは、それらのディストリビューションを商業的にサポートするだけでなく、Hadoopメーリングリストを介して、またディストリビューション固有の問題については、GetSatisfactionページでコミュニティサポートを提供します。

どちらも、リリースの合間にパッチを適用するため、バニラのApacheディストリビューションとはかなり異なります(clouderaバージョンの20には60以上のパッチがあります!)。

于 2009-09-13T07:53:20.263 に答える
4

Yahoo は独自の配布を中止し、Apache Hadoop に注力しています。

http://developer.yahoo.com/blogs/hadoop/posts/2011/01/announcement-yahoo-focusing-on-apache-hadoop-discontinuing-the-yahoo-distribution-of-hadoop/

http://www.cloudera.com/blog/2011/02/some-news-related-to-the-apache-hadoop-project/

最近、HortonWorks (www.hortonworks.com) が Yahoo からスピンアウトしました。また、Yahoo とは異なり、HortonWorks もサポートを提供することになります。

http://www.hortonworks.com/about-us/our-manifesto/

Cloudera は HortonWorks と同じ路線に沿っています

http://www.cloudera.com/products-services/

主な違いは、HortonWorks が Apache ディストリビューションを安定させ、インストールしやすくしたいと考えていることです。一方、Cloudera には、Apache Hadoop に基づく独自のディストリビューション CDH* があります。

于 2011-08-03T09:21:54.777 に答える
0

SquareCog は、次の点を除いてほぼすべての点で正しいです。ディストリビューションは、Yahoo! のすべての本番クラスターで実行されるものであり、それらのサブセットではありません。これは合計で 25,000 台を超えるマシンです。ヤフー!ディストリビューションには、信頼性の高い一貫した運用を確保するために必要な広範なエンド ツー エンドのテストが実施されています。他のディストリビューションは、パッチの適用に関してより寛容であり、より多くの機能を備えている可能性がありますが、広範囲にテストされていません.

于 2010-03-07T06:53:56.483 に答える