私は Hadoop のパフォーマンス分析に取り組んでおり、Hadoop でいくつかのベンチマークを実行しています。驚くべきことに、Grep の実行時間は wordcount のほぼ 1/10 であり、これは非常に直感的ではありません。なぜこれが本当なのか説明できる人はいますか?
質問する
876 次
1 に答える
3
map-reduce イディオムの作業の多くは、マッパーとリデューサー間の通信です。
WordCount の例では、すべての単語が出力レコード (およびレデューサー入力) になります。Grep の例では、一致したすべてのパターンが出力レコードになります。パターンが頻繁に一致しない場合、それはあまり多くのレコードではありません。
どちらも I/O バウンドになるため、マッパーが出力を生成するまではほぼ同じ時間で実行されると思います。2 つのタスク間の CPU の違いはごくわずかです。ただし、出力量の大きな違いは非常に顕著になります。
于 2013-04-18T22:58:59.357 に答える