私はHadoopの初心者です。しかし、私はこの興味深い観察をしました。
hadoopドキュメントの例を使用して、
スタンドアロン操作と疑似分散操作で同じ例を実行すると、スタンドアロン操作には1分もかかりませんでしたが、疑似分散操作には3分以上かかりました。これは大きな違いです。分散モードでは、余分なネットワークとスケジューリングのオーバーヘッドがあることを理解できました。しかし、違いは大きすぎるようです。例は非常に単純なので、これは実際の比較ではない可能性があります。
私の質問は、実際の仕事でスタンドアロンモードと分散モードの間にどのくらいの違いがあったかということです。