performance - Hadoop疑似分散操作とスタンドアロン操作のパフォーマンス比較

Question

私はHadoopの初心者です。しかし、私はこの興味深い観察をしました。

hadoopドキュメントの例を使用して、

スタンドアロン操作と疑似分散操作で同じ例を実行すると、スタンドアロン操作には1分もかかりませんでしたが、疑似分散操作には3分以上かかりました。これは大きな違いです。分散モードでは、余分なネットワークとスケジューリングのオーバーヘッドがあることを理解できました。しかし、違いは大きすぎるようです。例は非常に単純なので、これは実際の比較ではない可能性があります。

私の質問は、実際の仕事でスタンドアロンモードと分散モードの間にどのくらいの違いがあったかということです。

score 1 · Accepted Answer

これらはかなり異なるシナリオです。スタンドアロンモードでは、適切な 1 ノードの Hadoop クラスターを起動することはありません。すべてが JVM でローカルに、インラインで行われます。潜在的に、データをディスクに書き出す必要さえありません。疑似分散操作は、1 つのローカルノードの最小の「実際の」Hadoop インストールです。ローカル HDFS インスタンスへのデータの読み取り/書き込み、別の JVM の生成などを行う必要があります。これらすべてにより、多くのオーバーヘッドが追加されます。おそらく、オーバーヘッドは実際には数分です。これは私には完全に理にかなっているように思えます。

performance - Hadoop疑似分散操作とスタンドアロン操作のパフォーマンス比較

2 に答える 2

Related

Reference