0

私はHadoopの初心者です。「疑似分散モード」で正常に動作する単純な Map/Reduce アプリケーションを開発できました。「完全分散モード」でテストしたいと考えています。それに関していくつか質問があります。

  1. 1 ~ 10 GB のファイル サイズを処理するには、いくつのマシン (ノード) が必要ですか (最小および推奨)?
  2. ハードウェア要件は何ですか (主に、コア数、メモリ容量、ディスク容量を知りたい)?
4

1 に答える 1

2

Cloudera のハードウェアの推奨事項を確認します: http://www.cloudera.com/blog/2010/03/clouderas-support-team-shares-some-basic-hardware-recommendations/

そのページのスニペット

オリジナルの「ベース」推奨事項を含む、さまざまなワークロードのさまざまなハードウェア構成:

  • 軽量処理構成 (1U/マシン): 2 つのクアッド コア CPU、8GB メモリ、および 4 つのディスク ドライブ (1TB または 2TB)。自然言語処理などの CPU 集中型の作業では、データを処理する前に大規模なモデルを RAM にロードする必要があるため、1GB RAM/コアではなく 2GB RAM/コアで構成する必要があることに注意してください。
  • バランスの取れたコンピューティング構成 (1U/マシン): 2 つのクアッド コア CPU、16 ~ 24GB のメモリ、およびマザーボード コントローラーを使用して直接接続された 4 つのディスク ドライブ (1TB または 2TB)。これらは多くの場合、単一の 2U キャビネットに 2 つのマザーボードと 8 つのドライブを搭載したツインとして利用できます。
  • ストレージ ヘビー構成 (2U/マシン): 2 つのクアッド コア CPU、16 ~ 24GB のメモリ、および 12 台のディスク ドライブ (1TB または 2TB)。このタイプのマシンの消費電力は、アイドル状態で約 200W から始まり、アクティブ時には最大 350W に達することがあります。
  • 計算集約型構成 (2U/マシン): 2 つのクアッド コア CPU、48 ~ 72 GB のメモリ、および 8 台のディスク ドライブ (1 TB または 2 TB)。これらは、大規模なメモリ内モデルと大量の参照データ キャッシュの組み合わせが必要な場合によく使用されます。
于 2011-06-06T16:59:33.690 に答える