0

テキスト ドキュメントをクラスター化して、同じコンセプトのドキュメントを見つけたいと考えています。潜在的意味分析 (LSA) を使用して意味的類似性を調べましたが、目的に応じてどのクラスタリング方法を選択すればよいか混乱しています。ありがとうございました

4

1 に答える 1

1

階層クラスタリングを使用できます。R には RClusterpp というパッケージがあり、大規模なデータの階層的クラスタリングに非常に効率的です (並列計算を行います)。次に、可能な範囲内で異なる数のクラスターのデンドログラム ツリーを切り取り、クロス集計を使用してクラスター プロファイルを確認できます。

于 2016-05-31T11:42:48.370 に答える