複数のデータセンターにまたがるデータノードのパフォーマンスをテストしようとした人はいますか?特に小さなパイプのあるネットワーク上。私はそれについてあまり多くの情報を見つけることができないようであり、私が見つけた情報は古い(2010年頃)か独占的(DataStaxが何かを持っているようです)のどちらかです。Hadoopがラック認識をサポートしていることは知っていますが、前述のように、複数のデータセンター向けにシステムを調整するためのドキュメントはありません。
質問する
2329 次
1 に答える
5
およそ120マイル離れた2つのデータセンター間で2:1の比率に分割された12xDataNodeクラスターで試してみました。データセンター間の遅延は、2x1GbEパイプ全体で約4msでした。
サイトAに2台のラックが構成され、サイトBに1台のラックが構成されました。各「ラック」には4台のマシンがありました。基本的に、サイトBを「DR」サイトとしてテストしていました。レプリケーション係数は3に設定されました。
簡単に言えば、それは機能しますが、パフォーマンスは本当に、本当に悪かったです。書き込みI/Oを縮小するには、ソースで圧縮を使用し、出力をマップして削減する必要があります。サイト間のリンクが他の目的で使用されている場合、データの転送中にタイムアウトが発生します。TCPウィンドウ処理は、1GbE回線での潜在的な100MBps以上ではなく、転送を約4MBpsに効果的に制限します。
頭痛の種を避け、distcpジョブを使用してデータを複製してください!
于 2014-03-13T19:17:53.900 に答える