3

そのため、私はまだ Hadoop に少し慣れておらず、現在 Amazonaws で小さなテスト クラスターをセットアップしている最中です。したがって、私の質問は、クラスターの構造化に関するいくつかのヒントに関連しているため、リモート マシンからサブミット ジョブを実行できます。

現在、私は5台のマシンを持っています。4 は基本的に NameNodes、Yarn などを含む Hadoop クラスターです。1 台のマシンはマネージャー マシン (Cloudera Manager) として使用されます。セットアップに関する私の思考プロセスを説明します。誰かが私がはっきりしていない点を指摘してくれれば、それは素晴らしいことです.

小さなクラスターに最適なセットアップは何かを考えていました。そこで、マネージャー マシンを 1 つだけ公開し、おそらくそれを使用してすべてのジョブを送信することにしました。他のマシンはお互いを認識しますが、外部からはアクセスできません。私はこれを行う方法について概念的な考えを持っていますが、誰かが私を正しい方向に向けることができれば、これを適切に行う方法がわかりません。

また、もう 1 つの大きなポイントは、クライアント マシン (Windows の可能性があります) から公開マシンを介してクラスターにジョブを送信できるようにしたいということです。この設定についてもよくわかりません。通常の Hadoop コマンドを使用し、Eclipse などからジョブを作成/送信するには、Hadoop をマシンにインストールする必要がありますか?

要約すると、私の質問は、

  1. これは小規模なテスト クラスタの設定で問題ありませんか
  2. 1 台の公開されたマシンを使用して、Hadoop ノードをまったく持たずにジョブをクラスターに送信/ルーティングするにはどうすればよいでしょうか。
  3. リモート クラスタにジョブを送信するようにクライアント マシンをセットアップする方法と、Windows での実行方法の例。また、このセットアップで Windows をクライアント マシンとして使用しない理由がある場合。

ありがとう、これに関するアドバイスや助けをいただければ幸いです。

4

1 に答える 1