100Mbit/s のネットワーク インターフェイスが HDFS のボトルネックになり、その上で HBase の速度が低下すると思います (最大圧縮速度は約 10MB/s など)。この展開は理にかなっていますか?
SSD がゲームに登場する「今」は、1Gbit/s のネットワーク インターフェイスでもボトルネックになる可能性があるため、100Mbit/s のクラスターを構築することは (HDD の場合でも) 考慮に入れるべきではないのではないかと考えています。
100MB のネットワークは、Hadoop クラスターの適切なセットアップではない可能性があります。ネットワーク使用状況の分析については、Hadoop World からの cisco のプレゼンテーションを参照してください。つまり、実際の負荷とクラスターのサイズによっては、実行できる可能性がありますが、その場合は実際に Hadoop が必要であることを確認することをお勧めします。
SSDに関しては、MBあたりのコストが高く、書き込み負荷によっては、HDDよりも早く交換する必要がある場合がありますが、電力を節約できます-大規模なクラスターで使用するのは費用対効果が低いと思います(私は知りません) SSD を一部のディスクに使用できます。たとえば、クラスターの一時スペース (中間結果のマップ/削減など) に SSD を使用して、IO の利点を得ることができます。
簡潔に言うと、HDFS で SSD を使用しない
で
ください。これらのフラッシュ メモリには書き込み回数が制限されています。HDFS には多くの書き込みがありますが、これは主にレプリケーションが原因です。HBase を NoSQL DB として使用している場合は、さらに多くの書き込みが発生します。
ボトルネックは、おっしゃる通りハードディスクとネットワークです。データを配布しているため、ネットワークはさらに大きなボトルネックになるため、複製する必要があり、ジョブを実行している場合、データがローカルで利用できない場合はコピーされる可能性があります (リデューサーは多くのものをコピーする必要があります)。
したがって、10Mbit または 100Mbit よりも優れたネットワークを使用する必要があります。これは、ノード上のスイッチと NIC を意味します。
HDD RAID は、書き込み時の帯域幅の増加にはつながりません。それを証明するいくつかのベンチマークがありました。HDFS Wiki を見てください。そこに記述されている必要があります。
ネットワークがボトルネックになるかどうかは、実行しているジョブの種類によって異なります。テキスト処理を行う場合 (たとえば、Stanford NER や coreference suite を実行している場合)、100Mbit/s ネットワークは心配する必要がありません。ただし、大量の I/O 集中型処理 (大きな削減ステップを伴うほとんどのジョブ) を実行している場合は、そうなります。いつものように、それはあなたのワークロードに依存します。しかし、最近のプロセッサと複数のディスクを持つノードを考えると、100Mb ネットワークがボトルネックの原因である可能性が最も高いと言っても過言ではありません。