0

Amazon EC2 で Hadoop を永続的にセットアップしようとしています。現在私がしていることは、毎朝 EC2 インスタンスを起動し、Hadoop をセットアップすることです。この面倒な手順を回避する方法はありますか? EC2 にロードできる Hadoop イメージを探していて、作業が簡単になります。

Hadoop サービスに EMR を使用できることはわかっています。しかし、ジョブフローを送信せずに EMR (hadoop) クラスターを開始する方法がわかりません。つまり、ジョブが実行されていない Hadoop クラスターが必要です。

私の最終的な目標は、 DistmapSealなどのバイオインフォマティクス アプリケーションを実行することです。これらのアプリケーションを実行するには、多くの依存関係があります。したがって、環境をセットアップしてこれらのアプリケーションを実行するには、無料の Hadoop クラスターが必要です。私が何をしようとしているのかが明確になることを願っています。

ありがとう。

4

2 に答える 2

3

できることは、次のいずれかです。

オプション 1. お気に入りの Linux ディストリビューションを使用して、EBS でサポートされている EC2 インスタンスから始めます。必要な Hadoop ソフトウェアをインストールしてください。必要なインスタンスのタイプ (マスター / スレーブ /etc) と同じ数の EC2 インスタンスを作成します。その後、AWS コンソールで独自の AMI を作成できます (EC2 インスタンスを右クリックし、[AMI の作成] をクリックします)。その後、この AMI に基づいて、必要な数だけ独自のインスタンスを起動できます。インスタンスストアでバックアップされたインスタンスから AMI を作成することもできますが、それはすべてを S3 にダンプし、そこから AMI を作成することを意味します。これに関する利用可能なチュートリアルがたくさんあります。指示が必要な場合はコメントを残してください:)

オプション 2. Hadoop ベースの AMI から開始し、独自の構成を行って依存関係を追加した後、上記の手順を繰り返します。先に進み、AWS コンソールから Hadoop AMI を検索したところ、EU-West-1 に 48 あります (どの地域で作業しているかわかりません)。

オプション 3.EMR クラスターをインタラクティブモードで開始します。ジョブ フローが終了した後もクラスターを維持するオプションもあります。EMR インスタンスの EC2 キーも設定すると、それらに SSH で接続でき、Hadoop クラスターが機能するようになります (ただし、依存関係については不明ですが、独自に展開する方がよい場合があります)。

あなたが達成しようとしていることを正しく理解したことを願っています。これが少し役に立ちます。

于 2013-10-11T09:27:27.513 に答える
1

これは、構成管理と自動化の問題です。シェフとパペットのようにCMTを試して、あなたの望み通りにこれを成し遂げてください。

于 2013-10-09T14:38:37.137 に答える