同様のクラスターを見つけることに興味があるアクセス Web ログ ファイルからのデータ セットがあります。(私はデータマイニングの完全な初心者です)。これまで、同じ問題領域に関する多くの研究論文を参照してきました。
Web ログから Web アクセス パターンをクラスタリングするための効率的なアプローチ
k-means クラスタリングを使用した Web クエリのユーザーの意図の分類
k-means クラスタリングを使用して Web ページをクラスタリングしたいと考えています。これらの論文はアルゴリズムについて議論していますが、入力データセットを提供する方法を指定していません。k-means
ユークリッド距離を使用してデータ ポイント間の類似性を計算します。k-means
URLはk-meansに直接使用できないため、マイニングされるデータセットを正規化する方法。これに関するヘルプ/良いリファレンスはありますか?
サンプル データセット (p1..pn は異なる Web ページです)
p1,p2,p3,p4
p1,p2
p1,p5,p6,p7
p1,p2,p3,p5