1

膨大な Web ログの同時発生分析を行っています。<item1, item2>各項目の発生時間と、 hadoop を使用した各ペアの同時発生時間を計算しました。

<item1,item2>ここで、 などのペアの相関尺度を計算したいと思います。ここで、n_12/(n_1*n_2)アイテムnまたはアイテムペアの発生または同時発生時間を意味します。次のようにデータを整理しました。

key: item1
value: [(item1, n_1) (item2, n_12) ... (itemk, n_1k)]

n_2, ..., n_kについてのキー値を処理しているときに、どうすれば知ることができるのでしょうitem1か?

ご協力ありがとうございました。

4

1 に答える 1

2

各マッパーで特定の辞書にアクセスする必要があるということですか? Hadoop の「分散キャッシュ」機能を使用できます。これは、小さな辞書で機能します。ディクショナリはどのくらい大きくなりますか? GB 単位の場合は、サイド ジョインを減らす必要があるかもしれません。

于 2013-03-08T09:44:20.870 に答える