Hadoopクラスター専用に使用する新しいハードウェアを購入する予定ですが、購入する必要があるものに固執しています。予算が5,000ドルだとすると、2台の非常に優れたマシンを1台あたり2500ドルで、4台を1台あたり約1200ドルで、8台をそれぞれ約600ドルで購入する必要がありますか?Hadoopは、低速のマシンでうまく機能しますか、それともはるかに高速なマシンで動作しますか?または、ほとんどのもののように「それは依存します」?:-)
5 に答える
一般的に、Hadoopを使用すると、より頑丈でないマシンをいくつか追加する方がよいでしょう。16GBを超えるRAMとデュアルクアッドコアCPUを搭載したデータノードはほとんど見られず、多くの場合、それよりも小さくなっています。
常にネームノード(マスター)として実行する必要があります。また、クラスターが小さいため、同じボックスでデータノード(ワーカー/スレーブ)を実行することはありません。ただし、そうでないと仮定すると、2台のマシンを取得すると、1つのワーカーノードしか残らないため、目的が多少損なわれます。(完全ではありません。スレーブで4〜8個のジョブを並行して実行できるためですが、それでもです。)
同時に、1000486のクラスターは必要ありません。あなたの予算が$5kの場合、私はバランスを取り、4台の$1200マシンを実行します。これらは、個々のパフォーマンスの観点から適切なベースラインを提供し、作業を分散するための3つのデータノードがあり、必要に応じてクラスターを拡張する余地があります。
注意点:複数のマップを実行するか、データノードごとにタスクを減らす必要があります。つまり、複数のJVMが同時に実行されます。私は少なくとも4GB、できれば8GBのRAMを取得しようとします。ほとんどのMRジョブはIOバウンドであるため、CPUはそれほど重要ではありません。1200ドルの価格目標でこのようなマシンを手に入れることができる可能性が高いので、それが私の投票です。
一言で言えば、プロセッサコアとディスクの数を最大化する必要があります。信頼性と品質を犠牲にすることはできますが、信頼性の問題が多すぎるため、最も安価なハードウェアを入手しないでください。
Dell 2xCPU 4コアデルサーバーを使用したため、1ボックスあたり8コア。ボックスあたり16GBのメモリ。これはコアあたり2GBですが、タスクとディスクバッファリングの両方にメモリが必要なため、少し低くなります。5x500GBのハードドライブ。代わりにテラバイト以上のドライブを使用したいと思います。
ドライブの場合、私の意見は、より高価で、より速く、より小さく、信頼性の高いドライブではなく、より安価で、低速で、信頼性の低い、大容量のドライブを購入することです。ディスクスループットに問題がある場合は、より多くのメモリがバッファリングに役立ちます。
これはおそらくあなたが見ているよりも強力な構成ですが、コアとドライブを最大限に活用するのではなく、ボックスを追加購入するのが一般的に良い選択です。電力コストが少なく、管理が簡単で、一部の操作が高速です。
ドライブが多いほど、コアあたりの同時ディスクスループットが高くなるため、コアと同じ数のドライブを使用することをお勧めします。ベンチマークは、RAID構成がJBOD構成よりも低速であり(ドライブをマウントしてHadoopに負荷を分散させるだけ)、JBODの信頼性も高いことを示しているようです。
過去!必ずECCメモリを取得してください。Hadoopはテラバイトのデータをメモリにプッシュします。一部のユーザーは、ECC以外のメモリ構成では、テラバイトサイズのデータセットにシングルビットエラーが発生する場合があることを発見しました。これらのエラーのデバッグは悪夢です。
このプレゼンテーションをご覧になることをお勧めします。http ://www.cloudera.com/hadoop-training-thinking-at-scale ここでは、さまざまな賛否両論について説明します。
I think the answer also depends on Your expectations of the cluster grow and networking technology You are using. If you are ok with 1GB ethernet - then type of machines is less significant. In the same time - if you want 10GBit ethernet - you should opt to smaller number of better machines to reduce the cost of networking.
another reference : http://hadoopilluminated.com/hadoop_book/Hardware_Software.html (disclaimer : I am a co-author of this free hadoop book)