これはスタック オーバーフローに関する私の最初の質問です。これは実際にはプログラミングの問題ではありませんが、私たちのほとんどはある時点で理論的な問題に対処する必要があり、グラフ理論の専門家がいる可能性があるため、試してみようと思いました.
私は現在、多言語 Web サイトについて調査を行っており、Web サイトの構造に興味深いパターンがいくつか見つかりました。以下のグラフは、2 つの異なる多言語 Web サイトの Web サイト グラフです。申し訳ありませんが、画像を投稿するのに十分な担当者がいないため、リンクとして残しています. レイアウトには Force Atlas アルゴリズムを使用しました。頂点は、ページの言語に従って色付けされます。影付きの領域は、特定の言語のサブグラフに対応しています。
これは、同じコンテンツの異なる言語バージョンが非常に密接にリンクされている Web サイトのグラフです。したがって、異なる言語バージョンを表すプレーンは重複しています。
http://www.ai.soc.i.kyoto-u.ac.jp/~julien/phd/images/tight.png
この 2 番目のグラフでは、Web サイトの言語バージョンがほぼ独立している Web サイトがあるため、重複はほとんどありません。
http://www.ai.soc.i.kyoto-u.ac.jp/~julien/phd/images/loose.png
だからここに私の質問があります:
この重複を定量化する特定の指標はありますか? もしそうなら、それは何と名付けられていますか?
力ベースのレイアウトを使用したため、言語サブグラフ間のエッジの数。したがって、サブグラフ内のエッジの数と、特定のサブグラフの外側/内側に入るエッジの数の比率を取るようなことがうまくいくと思います。このアイデアを思いついたのは私が初めてではないはずなので、このメトリックに名前があるかどうか疑問に思っていました. そこからGoogleで検索できました:)
前もって感謝します!