膨大な Web ログの同時発生分析を行っています。<item1, item2>各項目の発生時間と、 hadoop を使用した各ペアの同時発生時間を計算しました。
<item1,item2>ここで、 などのペアの相関尺度を計算したいと思います。ここで、n_12/(n_1*n_2)アイテムnまたはアイテムペアの発生または同時発生時間を意味します。次のようにデータを整理しました。
key: item1
value: [(item1, n_1) (item2, n_12) ... (itemk, n_1k)]
n_2, ..., n_kについてのキー値を処理しているときに、どうすれば知ることができるのでしょうitem1か?
ご協力ありがとうございました。