1つのクラスターでApacheHadoopスタックからすべてのプロジェクトをセットアップしようとしています。ApacheHadoopエコシステムフレームワークを設定するシーケンスは何ですか。例:Hadoop、HBase、...そして、特定の一連の手順でテストした場合、デプロイ中に直面する可能性のある問題の種類を知ることができます。デプロイの主なフレームワーク(Hadoop、HBase、Pig、Hive、HCatalog、Mahout、Giraph、ZooKeeper、Oozie、avro、sqoop、mrunit、crunch、何かが足りない場合は追加してください)
3 に答える
リストされているすべての製品が依存しているわけではないため、注文は異なります。
一言で言えば: 1。Hadoop
(HDFS、MapReduce)
2. Pig、Hive、sqoop、Oozie
2. Zookeeper(HBaseに必要)
3。HBase
MRUnitの依存関係であるMahoutについて100%確信はありませんが、Hadoopは必要な場合にのみあると思います。
Avroはhadoopに直接依存していません-それはシリアル化ライブラリです。
展開は主要な要件に基づいて行われ、要件に基づいて、必要な他のコンポーネントを選択します。Hadoopのセットアップは次のように考えています。1。Hadoopコア(Hadoop Common + HDFS + MapReduce-> 1つの大きなコンポーネント)2。Hadoopコンポーネント(選択によって異なります)
たとえば、1)データをHDFSにコピーしている間も、MapReduceジョブを実行できます。あなたが私の主張を理解したことを願っています。
たとえば、HiveとPigを使用してデータ分析作業を行い、その上にHiveとPigを設定できます。
同時に、このHadoopクラスターをSQL Server / SQL Azureに接続して、SQL Server /SQLAzureからHDFSにデータをインポートできるようにすることにしました。このために、HiveODBCとSqoopをセットアップして、HDFSとSQL Server/Azureとの間でデータをインポート/エクスポートする機能を提供できます。HiveODBCとSqoopは、オンプレミスのExcelとPower PivotをHDFSに直接接続し、そこからハイブテーブルを取得する機能を提供します。
HDFSの上にSQLなしのデータベースをセットアップする場合は、HDFSの上にあるHBASEを選択して、その上でMapReduceジョブを実行できます。
そして、要件に応じて、必要なもののリストを作成し、クラスターにセットアップします。ベースのHadoopコア(上記を参照)が存在する限り、何が必要かという厳格なルールはありません。残りは、どのコアセットアップの上でも実行できます。
私
あなたが興味を持ち、ガイダンスやアイデアを提供するのに役立つかもしれない2つの興味深いオープンソースプロジェクトは次のとおりです。
- Apache Whirr- http: //whirr.apache.org/
- Apache Bigtop- http://incubator.apache.org/bigtop/
あなたが言及したプロジェクトを展開するために彼らが何をしているのか/使用しているのかを見て、「本当に自分で/別の方法でそれを行う必要がありますか?」と自問してください。;-)