0

私は Hadoop のパフォーマンス分析に取り組んでおり、Hadoop でいくつかのベンチマークを実行しています。驚くべきことに、Grep の実行時間は wordcount のほぼ 1/10 であり、これは非常に直感的ではありません。なぜこれが本当なのか説明できる人はいますか?

4

1 に答える 1

3

map-reduce イディオムの作業の多くは、マッパーとリデューサー間の通信です。

WordCount の例では、すべての単語が出力レコード (およびレデューサー入力) になります。Grep の例では、一致したすべてのパターンが出力レコードになります。パターンが頻繁に一致しない場合、それはあまり多くのレコードではありません。

どちらも I/O バウンドになるため、マッパーが出力を生成するまではほぼ同じ時間で実行されると思います。2 つのタスク間の CPU の違いはごくわずかです。ただし、出力量の大きな違いは非常に顕著になります。

于 2013-04-18T22:58:59.357 に答える