apache - Web ログデータでの k-means クラスタリングの使用

Question

同様のクラスターを見つけることに興味があるアクセス Web ログファイルからのデータセットがあります。（私はデータマイニングの完全な初心者です）。これまで、同じ問題領域に関する多くの研究論文を参照してきました。

Web ログから Web アクセスパターンをクラスタリングするための効率的なアプローチ

k-means クラスタリングを使用して Web ページをクラスタリングしたいと考えています。これらの論文はアルゴリズムについて議論していますが、入力データセットを提供する方法を指定していません。k-meansユークリッド距離を使用してデータポイント間の類似性を計算します。k-meansURLはk-meansに直接使用できないため、マイニングされるデータセットを正規化する方法。これに関するヘルプ/良いリファレンスはありますか?

サンプルデータセット (p1..pn は異なる Web ページです)

p1,p2,p3,p4
p1,p2
p1,p5,p6,p7
p1,p2,p3,p5

score 2 · Accepted Answer

私の理解が正しければ、一連の Web ページがあり、それぞれの Web ページにアクセスしたユーザーのセットがあります。例 (0 - 未訪問、1 - 訪問済み):

WebPage  | user1 | user2 | user3
webpage1 |     0 |     1 |     1
webpage2 |     1 |     0 |     0
webpage3 |     0 |     1 |     1

これらの Web ページ間の距離を調べたいとします。

この場合、2 つの Web ページ間のユークリッド距離は次のようになります:
d(wp ₁ , wp ₂ ) = sqrt((u _1,1 - u _2,1 )^2 + (u _1,2 - u _2,2 )^2 + .. . + (u _1,n - u _2,n )^2)、
ここで u _2,1 = user1 が webpage2 にアクセスした場合は 1、それ以外の場合は 0

したがって、d(webpage1, webpage2) = sqrt((0 - 1)^2 + (1 - 0)^2 + (1 - 0)^2) = sqrt(3)
d(webpage1, webpage3) = sqrt(0+ 0+0) = 0 = それらの間の距離がゼロ

また、ユーザーごとに特定の Web ページの訪問回数を考慮することもできます。訪問した Web ページに 1 を使用する代わりに、加重値を使用します: numberOfParticularWebPageVisits/numberOFAllUsersWebpageVisits

apache - Web ログ データでの k-means クラスタリングの使用

1 に答える 1

Related

Reference

apache - Web ログデータでの k-means クラスタリングの使用