膨大な Web ログの同時発生分析を行っています。<item1, item2>
各項目の発生時間と、 hadoop を使用した各ペアの同時発生時間を計算しました。
<item1,item2>
ここで、 などのペアの相関尺度を計算したいと思います。ここで、n_12/(n_1*n_2)
アイテムn
またはアイテムペアの発生または同時発生時間を意味します。次のようにデータを整理しました。
key: item1
value: [(item1, n_1) (item2, n_12) ... (itemk, n_1k)]
n_2, ..., n_k
についてのキー値を処理しているときに、どうすれば知ることができるのでしょうitem1
か?
ご協力ありがとうございました。