2

これはスタック オーバーフローに関する私の最初の質問です。これは実際にはプログラミングの問題ではありませんが、私たちのほとんどはある時点で理論的な問題に対処する必要があり、グラフ理論の専門家がいる可能性があるため、試してみようと思いました.

私は現在、多言語 Web サイトについて調査を行っており、Web サイトの構造に興味深いパターンがいくつか見つかりました。以下のグラフは、2 つの異なる多言語 Web サイトの Web サイト グラフです。申し訳ありませんが、画像を投稿するのに十分な担当者がいないため、リンクとして残しています. レイアウトには Force Atlas アルゴリズムを使用しました。頂点は、ページの言語に従って色付けされます。影付きの領域は、特定の言語のサブグラフに対応しています。

これは、同じコンテンツの異なる言語バージョンが非常に密接にリンクされている Web サイトのグラフです。したがって、異なる言語バージョンを表すプレーンは重複しています。

http://www.ai.soc.i.kyoto-u.ac.jp/~julien/phd/images/tight.png

この 2 番目のグラフでは、Web サイトの言語バージョンがほぼ独立している Web サイトがあるため、重複はほとんどありません。

http://www.ai.soc.i.kyoto-u.ac.jp/~julien/phd/images/loose.png

だからここに私の質問があります:

この重複を定量化する特定の指標はありますか? もしそうなら、それは何と名付けられていますか?

力ベースのレイアウトを使用したため、言語サブグラフ間のエッジの数。したがって、サブグラフ内のエッジの数と、特定のサブグラフの外側/内側に入るエッジの数の比率を取るようなことがうまくいくと思います。このアイデアを思いついたのは私が初めてではないはずなので、このメトリックに名前があるかどうか疑問に思っていました. そこからGoogleで検索できました:)

前もって感謝します!

4

2 に答える 2

3

あなたが探しているのはNetwork Modularityのようです。グラフとパーティション (グラフをバラバラのサブグラフに分割) が与えられると、モジュール性は次のように定義されます。

指定されたグループ内にあるエッジの割合から、エッジがランダムに分布している場合に予想されるそのような割合を差し引いたもの。

モジュール性は、密に接続されたノードのセットを見つけようとする、ネットワーク上の最初のコミュニティ検出アルゴリズムのいくつかの基礎でした。最近、モジュール性はコミュニティ検出の指標としては不十分であることが示されていますが、解像度の制限により、小さなグループを検出できなかったり、特定のケースで明確に定義されたグループを分割したりできないためです (このペーパーを参照)。

于 2011-07-20T14:04:20.747 に答える