私は有向グラフを持っています(実際にはハイパーグラフですが、今のところそれを無視してもかまいません)。
このグラフからさまざまなサブグラフを選択し、そのようなさまざまなサブセットを「クラスター品質」でランク付けする関数を探しています。
サブセットのメンバー間に多数のリンクが存在する場合、「クラスター品質」は高くなければなりません
サブセットの多くのメンバーからサブセットへ、またはサブセットの外部から多くのリンクが存在する場合、「クラスター品質」は低くなければなりません。
私の質問は:
「クラスター品質」の正しい用語は何ですか。
このコンテキストに存在する関連するアルゴリズム/関数は何ですか?
JVMにはどのような実装がありますか。Scalaが望ましいですが、Javaから呼び出し可能なものなら何でも構いませんか?
背景:アイデアは、ソースコード(クラスとメソッドの名前またはその一部)から単語を抽出し、「優れたクラスター」によって使用される単語を見つけることでアプリケーションを最もよく表す単語を見つけ、コード内の知識の概念を表す可能性があることです。