0

AWSMapReduceから独自のラック上のHadoopクラスターに移行します。最初は、Hadoop/HDFS専用の7台のサーバーがあります。

HDFSに保存するデータはミッションクリティカルであり、バックアップオプションがあるとは思わないので(少なくとも使用の1日目は)、継続性を保証するためにできることを実行したいと思います。

また、私たちが持っている仕事はそのハードウェアの2倍を簡単に使用できるので、計算能力を最大限に活用したいと思います。

  • この7サーバークラスターで各ボックスに何を指定する必要がありますか?特に、どのプロセスをオーバーラップさせる必要がありますか(たとえば、バックアップの名前ノードがタスクノードなどとしてボックスを共有する必要がありますか?)
4

1 に答える 1

0

私たちが最後にしたことはこれです:

LXC(ここではLXCが重要なコンポーネント)を使用して、ジョブマネージャー、ネームノードなどの管理コンポーネント用に2つのサーバーに個別のコンテナーを作成しました。これは、ネームノードとジョブマネージャーが最もリソースを消費するためです。これらの2つのサーバー(各コンポーネントは独自の個別のLXCコンテナー内にあります)。これら2つのサーバー間で分割した残りのコンポーネント。

次に、これら2つの「管理」サーバーのそれぞれに「削減された」データノードとタスクトラッカーを展開しました。LXCのコントロールグループを使用して、データ/タスクノードを犠牲にしてCPUとディスクを管理コンポーネントに優先させました。Cloudera Managerの簡略化された構成を使用して、これら2つのボックスのデータ/タスクノードに少数のタスクスロットを簡単にデプロイしました。

このようにして、ハードウェアを十分に活用し、残りのボックスは専用の「通常の」データ/タスクノードでした。

もちろん、バックアップネームノードはジョブトラッカーと同じ物理ホストで実行され、メインネームノードは2番目の物理ボックスで実行されていたため、バックアップが作成されました。また、3台のワーカーマシンのLXCコンテナーに使用スペースNTFSクライアントをインストールし、namenodeに構成のコピーをバックアップとしてそこに書き出させました。

ネームノードをハードウェア障害(ディスク)で一度失い、セカンダリから正常に回復できました。

于 2013-10-19T03:18:26.683 に答える