これは宿題の質問です。私は言葉でいっぱいの巨大な文書を持っています。私の課題は、これらの単語を適切に表すさまざまなグループ/クラスターに分類することです。これに対処するための私の戦略は、K-Means アルゴリズムを使用することです。ご存知のように、次の手順を実行します。
- グループ全体の k 個のランダム平均を生成する
- 各単語を最も近い平均値に関連付けて K 個のクラスターを作成する
- 各クラスターの重心を計算します。これが新しい平均になります
- 特定のベンチマーク/収束に達するまで、ステップ 2 とステップ 3 を繰り返します。
理論的には、私はそれを理解していますが、完全ではありません。各ステップで、それに対応する質問があると思います。これらは次のとおりです。
k 個のランダム手段を決定するにはどうすればよいですか。技術的には 5 と言えますが、それは必ずしも適切な乱数であるとは限りません。この k は純粋に乱数なのか、それともデータセットのサイズや含まれる単語数などのヒューリスティックによって実際に駆動されるのか
各単語を最も近い平均値とどのように関連付けますか? 理論的には、各単語は最も近い平均までの距離によって関連付けられていると結論付けることができます。したがって、3 つの平均がある場合、特定のクラスターに属する単語は、どの平均までの距離が最も短いかに依存します。しかし、これは実際にどのように計算されるのでしょうか? 「group」、「textword」という 2 つの単語の間に、「pencil」という意味の単語を想定すると、どのように類似度マトリックスを作成できますか。
セントロイドはどのように計算しますか?
ステップ 2 とステップ 3 を繰り返すとき、前の各クラスターを新しいデータ セットと想定しているのでしょうか。
たくさんの質問があり、私は明らかにはっきりしていません。私が読むことができるリソースがあれば、それは素晴らしいことです. ウィキペディアでは十分ではありませんでした:(