いくつかの単語をクラスタ化しようとしています。
私のデータの一部は以下のとおりです(これは単なる例です)。
cat dog horse ostrich
cat 8 2.3 3.4 4.7
dog 7 8 3 2.4
horse 3.4 2.5 8 1.5
ostrich 3.4 3.2 4.4 8
数値が大きいほど、2 つの単語の類似度が高いことを意味します。このような形式のデータをもとにクラスター(例えば(猫、犬)、(馬)、(ダチョウ)の合計3つのクラスター)を作りたいと思っています。
最初に、CLUTO... を使用して、いくつかのクラスターと (非常に美しい) グラフを以下のように作成しようとしました。
しかし、私はできません... 私はすでにマニュアルを見ましたが、それほど簡単ではありません。そこで、k-means などの nltk でいくつかのクラスタリング ライブラリを使用しようとしました。しかし、上記のようなグラフを作成する方法がわかりません。(また、入力データに基づいていくつかのクラスターを作成する必要があります)