ユーザーのグループとそれに関連する単語があります。これは私がそれらをグループ化した方法です:
各単語を数字に関連付けました。ユーザーがこれらの単語を関連付けていない場合は、値 0 を指定します。
google : 1 stackoverflow : 2 math : 3 プログラミング : 4 noword : 0
k-means アルゴリズムを実行するには、単語を次のように関連付けます。
username google stackoverflow math programming
user1 1 0 3 0
user2 1 2 0 4
user3 0 2 3 0
user4 1 1 0 4
これは、各ユーザーをクラスター化し、構成された単語に基づいて互いにどれだけ近いかを確認する方法の正しい実装ですか?
私はこの実装に基づいています: http://en.wikibooks.org/wiki/Data_Mining_Algorithms_In_R/Clustering/K-Means
特にこのセクション: