5

Mapreduceを使用してウィキペディアの内部ページランクを見つけようとしています。ウィキページの小さなサブセットにPagerankアルゴリズムを実装しました。6349ページあります。この式を使用してページランクを計算しました(d = 0.85)。

ここに画像の説明を入力してください

すべてのページランクの合計が総ページ数(6349)に等しいかどうかを確認したかったのです。

私がこれまでに見つけたもの:

1.6349ページすべての合計ページランクは1001.26044です。

2. WikiPediaによると上記の式を使用すると、each PageRank is multiplied by N and the sum becomes N。各ページランクにN(6349)を掛けて合計を計算すると、6356789.5が得られました。

ページランクの合計が総ページ数と等しくない理由はありますか?2番目の式を使用して確認する必要がありますか?

ここに画像の説明を入力してください

注:適切な近似値を取得するために、mapreduceコードを10回実行しました。

4

2 に答える 2

6

私が思うに、反復が少なすぎます。なぜ10?なぜ100?または100000?最後の2つの変更の媒体または最大値を数える必要があります。したがって、考えられるエラーを評価します。

そしてPRは確率です。それらすべての合計は1でなければなりません!「すべてのページランクの合計が総ページ数に等しい」という文は間違っています。

別の式は別のモデルと別のPRに属しています。もちろん、あなたもそれを使うことができます。または両方。ただし、使用を確認することはできません。

于 2012-11-27T09:40:51.357 に答える
-1

選択するベースによって異なります(デフォルトは1)。各反復の後、計算する必要があります

delta = (base - sum_of_ranks) / N

次に、各ランクをデルタ単位で減らします。この方法でのみ、最後の反復が終了するまでランクを維持できます。

于 2015-01-27T22:01:38.413 に答える