MapReduce を使用して PageRank を実装するという理論に関する問題を回避しようとしています。
次の 3 つのノードを持つ単純なシナリオがあります: AB C.
隣接行列は次のとおりです。
A { B, C }
B { A }
たとえば、B の PageRank は次のようになります。
(1-d)/N + d ( PR(A) / C(A) )
N = number of incoming links to B
PR(A) = PageRank of incoming link A
C(A) = number of outgoing links from page A
私はすべての回路図とマッパーとレデューサーがどのように機能するかについては問題ありませんが、レデューサーによる計算時に C(A) がどのように認識されるかについて頭を悩ませることができません。レデューサーは、B への着信リンクを集計して B の PageRank を計算するときに、各ページからの発信リンクの数をどのように知るのでしょうか。これには、外部データ ソースでのルックアップが必要ですか?