1

Hadoop クラスターのデータノードのフェイルオーバーについていくつか質問があります。

1: What happen the link is down between the namenode and a datanode 
   (or between 2 datanodes) when the hadoop cluster is processing some data?
   Does Hadoop cluster have any OOTB to recover this problem?
2: What happen one datanode is down when the hadoop cluster is processing 
   some data? 

また、別の質問は、hadoop クラスターのハードウェア構成に関するものです。Hadoop クラスターを使用して毎日 100 GB のログ ファイルを処理するとします。セットアップする必要があるデータノードの数は? また、各データノードのハードウェア構成 (CPU、RAM、ハーディスクなど) については?

4

2 に答える 2

2

1: Hadoop クラスターがデータを処理しているときに、ネームノードとデータノードの間 (または 2 つのデータノードの間) でリンクがダウンした場合はどうなりますか? Hadoop クラスターには、この問題を回復するための OOTB がありますか?

NN はそのノードからハートビートを受信しないため、ノードが停止していると見なされます。このような場合、そのノードで実行されているタスクは、そのデータを持つ他のノードでスケジュールされます。

2: Hadoop クラスターがデータを処理しているときに、1 つのデータノードがダウンするとどうなりますか?

同上。

あなたの質問の2番目の部分について:

それは、データと実行する処理の種類、およびその他のいくつかのことに完全に依存します。100G はそもそも MR 処理に適した候補ではありません。ただし、それでも必要な場合は、まともなマシンで 100G データを処理するのに十分です。

経験則として、次のことを考慮することができます。

  • RAM : 100 万個の HDFS ブロックごとに 1G RAM + 他のもの用にいくらかの追加。
  • CPU :完全にあなたのニーズに基づいています。
  • ディスク :データサイズの 3 倍 (レプリケーション ファクター = 3 の場合) + 一時ファイル、他のアプリなどのための追加スペース。JBOD が推奨されます。

率直に言って、プロセスはもっと複雑です。適切なアイデアを得るために、このリンクにアクセスすることを強くお勧めします。

5 台のマシンを含むクラスターから始めます。

  1. 1 * マスター (NN + JT) -

    ディスク : 3 * JBOD 構成の 1TB ハードディスク (OS 用に 1 つ、FS イメージ用に 2 つ)

    CPU :少なくとも 2-2.5 GHz で動作する 2 つのクアッド コア CPU

    RAM : 32 GB の RAM

  2. 3 * スレーブ (DN+TT) -

    ディスク: JBOD (Just a Bunch Of Disks) 構成の 3 * 2 TB ハードディスク

    CPU :少なくとも 2-2.5 GHz で動作する 2 つのクアッド コア CPU

    RAM : 16 GB の RAM

  3. 1 * SNN -

    私はそれをマスターマシンと同じに保ちます。

于 2013-09-17T23:08:45.897 に答える