1

同様のクラスターを見つけることに興味があるアクセス Web ログ ファイルからのデータ セットがあります。(私はデータマイニングの完全な初心者です)。これまで、同じ問題領域に関する多くの研究論文を参照してきました。

Web ログから Web アクセス パターンをクラスタリングするための効率的なアプローチ

k-means クラスタリングを使用した Web クエリのユーザーの意図の分類

k-means クラスタリングを使用して Web ページをクラスタリングしたいと考えています。これらの論文はアルゴリズムについて議論していますが、入力データセットを提供する方法を指定していません。k-meansユークリッド距離を使用してデータ ポイント間の類似性を計算します。k-meansURLはk-meansに直接使用できないため、マイニングされるデータセットを正規化する方法。これに関するヘルプ/良いリファレンスはありますか?

サンプル データセット (p1..pn は異なる Web ページです)

p1,p2,p3,p4
p1,p2
p1,p5,p6,p7
p1,p2,p3,p5
4

1 に答える 1

2

私の理解が正しければ、一連の Web ページがあり、それぞれの Web ページにアクセスしたユーザーのセットがあります。例 (0 - 未訪問、1 - 訪問済み):

WebPage  | user1 | user2 | user3
webpage1 |     0 |     1 |     1
webpage2 |     1 |     0 |     0
webpage3 |     0 |     1 |     1

これらの Web ページ間の距離を調べたいとします。

この場合、2 つの Web ページ間のユークリッド距離は次のようになります:
d(wp 1 , wp 2 ) = sqrt((u 1,1 - u 2,1 )^2 + (u 1,2 - u 2,2 )^2 + .. . + (u 1,n - u 2,n )^2)、
ここで u 2,1 = user1 が webpage2 にアクセスした場合は 1、それ以外の場合は 0

したがって、d(webpage1, webpage2) = sqrt((0 - 1)^2 + (1 - 0)^2 + (1 - 0)^2) = sqrt(3)
d(webpage1, webpage3) = sqrt(0+ 0+0) = 0 = それらの間の距離がゼロ

また、ユーザーごとに特定の Web ページの訪問回数を考慮することもできます。訪問した Web ページに 1 を使用する代わりに、加重値を使用します: numberOfParticularWebPageVisits/numberOFAllUsersWebpageVisits

于 2013-12-10T12:52:44.660 に答える