Amazon Elastic MapReduceを試しましたか?これは、指定されたサイズのHadoopクラスターをオンデマンドで起動するシンプルなAPIです。
手動で独自のクラスターを作成するよりも簡単です。
ただし、デフォルトでジョブフローが終了すると、クラスターがシャットダウンされ、S3に出力が残ります。あなたが必要としているのが単にいくつかのクランチをすることであるならば、これは行く方法かもしれません。
HDFSコンテンツを永続的に保存する必要がある場合(たとえば、Hadoop上でHBaseを実行している場合)、実際にはEC2上に独自のクラスターが必要になる場合があります。この場合、ClouderaのHadoop forAmazonEC2のディストリビューションが役立つ場合があります。
起動するノードのHadoop構成を変更するには、EC2ブートストラップアクションを使用します。
Q:ジョブフローのHadoop設定を構成するにはどうすればよいですか?
Elastic MapReduceのデフォルトのHadoop構成は、ほとんどのワークロードに適しています。ただし、ジョブフローの特定のメモリと処理要件に基づいて、これらの設定を調整することが適切な場合があります。たとえば、ジョブフロータスクがメモリを大量に消費する場合は、コアあたりの使用するタスクを減らし、ジョブトラッカーのヒープサイズを減らすことを選択できます。この状況では、事前定義されたブートストラップアクションを使用して、起動時にジョブフローを構成できます。構成の詳細と使用方法については、開発者ガイドの「メモリを大量に消費するブートストラップアクションの構成」を参照してください。追加の事前定義されたブートストラップアクションを使用して、クラスター設定を任意の値にカスタマイズできます。Hadoopブートストラップアクションの構成を参照してください使用方法については、開発者ガイドを参照してください。
クラスターの開始方法について、次のことを明確にしてください。
マスターノードとn個のスレーブノードでクラスターを実行しようとしている場合は、標準の互換性のあるAMIを使用してn + 1個のインスタンスを起動し、ターミナルでコード「hadoop-ec2launch-clusternamen」を実行します。マスターノードは成功しましたが、スレーブノードが起動を開始すると「パラメーター-hがありません(AMIがありません)」というエラーが表示され、進行方法が完全にはわかりません。
どのくらい正確にそれを始めようとしていますか?正確にはどのAMIを使用していますか?