algorithm - Map/Reduce アルゴリズムで単語を数える

Question

カウントする単語が20個ある場合。グループの 5 ワードごとに、これらのグループは異なるコンピューターノードによって処理されます。さて、「boy」という単語が 2 回出現したが、異なるグループに分けられた場合、Map/Redude は「boy」という単語の実際の数を取得するためにどのようなアルゴリズムを使用したのでしょうか。

score 2 · Accepted Answer

この例では、Map/Reduce を使用してこれを計算する最も明白な方法は、各マッパーが 5 つの単語を取得し、その単語をレデューサーに発行することです。単語はレデューサー間で分割されるため、レデューサー 1 はすべての「boy」単語を取得し、レデューサー 2 はすべての「the」単語を取得するなど、レデューサーは受け取った単語を単純に合計して出現回数を取得できます。その言葉の。

Hadoop ドキュメントにこの例があります: http://hadoop.apache.org/common/docs/current/mapred_tutorial.html#Example%3A+WordCount+v1.0

score 0 · Accepted Answer

それが MapReduce の reduce です。マスターノードは、各サブグループの出現回数を取得し、各単語の出現回数を追加してそれらを結合します。したがって、4 つのグループがあり、そのうちの 2 つのグループで「男の子」がそれぞれ 1 回だけ出現する場合、出現回数を加算して合計 1+1+0+0=2 を取得することで結合します。

algorithm - Map/Reduce アルゴリズムで単語を数える

2 に答える 2

Related

Reference