10

Hadoop を実行するマシンが互いに大きく異なると、Hadoop のパフォーマンスが大幅に低下するということをどこかで読んだことを覚えていますが、そのコメントはもう見当たりません。グループによって直接管理されていない VM のアレイで Hadoop クラスターを実行することを検討しています。これが要求に含める必要があるかどうかを知る必要があります。

では、すべてのマシンが同一のハードウェアを持つように主張する必要がありますか?それとも、異なるハードウェア構成の異なるマシンで実行しても問題ないでしょうか?

ありがとう。

4

2 に答える 2

14

次の論文では、異種クラスターがHadoopmap-reduceのパフォーマンスにどのように影響するかについて説明しています。

異種クラスターでは、ノードの計算能力が大幅に異なる場合があります。高速ノードは、ノードのローカルディスクに格納されているデータの処理を低速ノードよりも速く完了することができます。高速ノードがローカル入力データの処理を完了した後、ノードは1つ以上のリモート低速ノードにある未処理のデータを処理することによって負荷分散をサポートする必要があります。ロードシェアリングによって転送されるデータの量が非常に多い場合、未処理のデータを低速ノードから高速ノードに移動するオーバーヘッドは、Hadoopのパフォーマンスに影響を与える重大な問題になります。

以下の参考文献に詳細があります。

  1. http://computerresearch.org/stpr/index.php/gjcst/article/view/749/658
  2. http://www.usenix.org/event/osdi08/tech/full_papers/zaharia/zaharia.pdf

また、異種クラスターのパフォーマンスを改善したり、このパフォーマンスの低下を回避したりする方法も提供します。

クラスター上に同種のマシンを配置することをお勧めしますが、これらのマシンの仕様やパフォーマンスの違いが大きく異なる場合は、クラスターの構築を続行する必要があります。

実動システムの場合、同種のマシンを提案する必要があります。開発の場合、パフォーマンスは重要ではありません。

ただし、Hadoopクラスターを構築した後は、ベンチマークを実行できるはずです。

于 2012-06-25T17:57:08.310 に答える
4

同種のクラスターは確かに理想的ですが、必ずしも必要というわけではありません。たとえば、Yahoo!、Inc.は、実稼働環境で異種クラスターを実行します。そこでの研究者と話をしたところ、スケジューリングの問題(ツールにパフォーマンスを意識したスケジューリングを追加するために一生懸命働いているほど大きなヒット)が原因でパフォーマンスが低下していることがわかりましたが、ペナルティは損なわれていません。

于 2012-06-26T14:33:02.597 に答える