machine-learning - K-Means を使用したトピッククラスタリングでは、どのインジケーターを使用すればよいですか?

Question

k-means アルゴリズムを実装しようとしています。入力は一連のテキストファイルです。それらをさまざまなトピックにクラスタリングしたいと考えています。

最初のステップは、これらのテキストファイルをベクターサンプルに変換することです。

私の質問は、以下のどのインジケーターを使用すればよいですか? なんで？

score 1 · Accepted Answer

最良のアプローチは、おそらく各ドキュメントに上位 50 程度の TF-IDF 用語を使用することです (厳密に 50 である必要はありません。数を試してみてください)。完全な単語出現ベクトルを使用しても、次元が高いため、良い結果が得られない可能性があります。

または、潜在的ディリクレ配分を調査し、各ドキュメントのトピックの比率をクラスター化する機能として使用することをお勧めします。

machine-learning - K-Means を使用したトピック クラスタリングでは、どのインジケーターを使用すればよいですか?