2

次の問題があります。

頂点 v0、v1、...、vN として表される Web ページのリストがあります。

私はグラフ g0、g1、...、gM を持っています。これらには、次のような Web サイトへのアクセス中にユーザーがアクセスしたページを示すエッジ リストがあります。

  1. g0: (v3、v44) ; (v44、v5)
  2. g1: (v3、v44) ; (v44、v5) ; (v5、v7)
  3. ...
  4. GM: ...

このデータを使用して、Web ページの訪問パターンのクラスターを作成したいと考えています。

探しているもの: 1. この問題の解決に役立つアルゴリズムの論文、ブログなど。2. オープン ソース コード、この問題に取り組むコード フラグメント。

前もって感謝します。

ノート:

グラフ クラスタリング アルゴリズムを認識し、使用しています。このアプリケーションに固有のものを探していました。

4

1 に答える 1

1

データには、実際には、ユーザー、Web ページ、および他の Web ページ間のハイパー エッジと、一時的な要因が含まれているようです。これらのタイプの問題に対処する可能性のあるテンソル因数分解に関する研究がいくつかありますが、よりよく研究されたアプローチを利用するには、エッジ次元および/または時間コンポーネントの 1 つを破棄する方がよいでしょう。

考えられる方法は次の 2 つです。

  1. Web ページ間のエッジのみを見て、確率的ブロック モデルを使用してクリックされたリンクを分析できます。Eric Xing には、これに関する興味深い研究があります: http://www.cs.cmu.edu/~epxing/papers/2009/fu_song_xing_icml09.pdf

  2. 異なるユーザーがどの Web ページにアクセスしたかだけを調べ (Web ページ間のリンクを除外)、協調フィルタリング (http://www2.research.att.com/~volinsky/netflix/) または共同クラスタリング アプローチを使用できます。 (グーグル「共クラスタリング」)。

于 2013-01-03T23:33:19.853 に答える