amazon-ec2 - アマゾンクラウド上の Hadoop

Question

一部の Hadoop MapReduce ジョブを実行するために Amazon Cloud をセットアップしようとしていますが、クラスターを正常に作成するのに苦労しています。EC2 ファイルをダウンロードし、証明書とキーペアファイルを持っていますが、問題を引き起こしているのは AMI だと思います。マスターノードと n 個のスレーブノードでクラスターを実行しようとしている場合、標準互換の AMI を使用して n+1 個のインスタンスを開始し、ターミナルでコード「hadoop-ec2 launch-cluster name n」を実行します。マスターノードは成功しましたが、スレーブノードが起動し始めると、「パラメーター -h がありません (AMI がありません)」というエラーが表示され、進行方法がよくわかりません。

また、一部のジョブでは、hadoops パラメーター設定 (具体的には mapred-site.xml 構成ファイル) を変更する必要があります。このファイルを変更することは可能ですか? また、変更できる場合、どうすればアクセスできますか? Hadoop は既に Amazon マシンにインストールされており、このファイルはアクセス可能で変更可能ですか?

ありがとう

score 1 · Accepted Answer

Amazon Elastic MapReduceを試しましたか？これは、指定されたサイズのHadoopクラスターをオンデマンドで起動するシンプルなAPIです。

手動で独自のクラスターを作成するよりも簡単です。

ただし、デフォルトでジョブフローが終了すると、クラスターがシャットダウンされ、S3に出力が残ります。あなたが必要としているのが単にいくつかのクランチをすることであるならば、これは行く方法かもしれません。

HDFSコンテンツを永続的に保存する必要がある場合（たとえば、Hadoop上でHBaseを実行している場合）、実際にはEC2上に独自のクラスターが必要になる場合があります。この場合、ClouderaのHadoop forAmazonEC2のディストリビューションが役立つ場合があります。

起動するノードのHadoop構成を変更するには、EC2ブートストラップアクションを使用します。

Q：ジョブフローのHadoop設定を構成するにはどうすればよいですか？

Elastic MapReduceのデフォルトのHadoop構成は、ほとんどのワークロードに適しています。ただし、ジョブフローの特定のメモリと処理要件に基づいて、これらの設定を調整することが適切な場合があります。たとえば、ジョブフロータスクがメモリを大量に消費する場合は、コアあたりの使用するタスクを減らし、ジョブトラッカーのヒープサイズを減らすことを選択できます。この状況では、事前定義されたブートストラップアクションを使用して、起動時にジョブフローを構成できます。構成の詳細と使用方法については、開発者ガイドの「メモリを大量に消費するブートストラップアクションの構成」を参照してください。追加の事前定義されたブートストラップアクションを使用して、クラスター設定を任意の値にカスタマイズできます。Hadoopブートストラップアクションの構成を参照してください使用方法については、開発者ガイドを参照してください。

クラスターの開始方法について、次のことを明確にしてください。

マスターノードとn個のスレーブノードでクラスターを実行しようとしている場合は、標準の互換性のあるAMIを使用してn + 1個のインスタンスを起動し、ターミナルでコード「hadoop-ec2launch-clusternamen」を実行します。マスターノードは成功しましたが、スレーブノードが起動を開始すると「パラメーター-hがありません（AMIがありません）」というエラーが表示され、進行方法が完全にはわかりません。

どのくらい正確にそれを始めようとしていますか？正確にはどのAMIを使用していますか？

amazon-ec2 - アマゾン クラウド上の Hadoop

1 に答える 1

Related

Reference

amazon-ec2 - アマゾンクラウド上の Hadoop