k-means アルゴリズムを実装しようとしています。入力は一連のテキスト ファイルです。それらをさまざまなトピックにクラスタリングしたいと考えています。
最初のステップは、これらのテキスト ファイルをベクター サンプルに変換することです。
私の質問は、以下のどのインジケーターを使用すればよいですか? なんで ?
- 単語が表示されるかどうか。
- 単語の頻度。
- TF-IDF。
k-means アルゴリズムを実装しようとしています。入力は一連のテキスト ファイルです。それらをさまざまなトピックにクラスタリングしたいと考えています。
最初のステップは、これらのテキスト ファイルをベクター サンプルに変換することです。
私の質問は、以下のどのインジケーターを使用すればよいですか? なんで ?
最良のアプローチは、おそらく各ドキュメントに上位 50 程度の TF-IDF 用語を使用することです (厳密に 50 である必要はありません。数を試してみてください)。完全な単語出現ベクトルを使用しても、次元が高いため、良い結果が得られない可能性があります。
または、潜在的ディリクレ配分を調査し、各ドキュメントのトピックの比率をクラスター化する機能として使用することをお勧めします。