R 言語を使用して同様のドキュメントをクラスター化しようとしています。最初のステップとして、ドキュメント セットの用語-ドキュメント マトリックスを計算します。次に、前に作成した用語ドキュメント マトリックスの潜在的な意味空間を作成します。用語と文書の行列だけを使用したクラスタリングの結果がひどかったため、実験で LSA を使用することにしました。作成された LSA 空間を使用して、非類似度行列 (余弦測定を使用) を作成することは可能ですか? これを行う必要があるのは、使用しているクラスタリング アルゴリズムが非類似度行列を入力として必要とするためです。
これが私のコードです:
require(cluster);
require (lsa);
myMatrix = textmatrix("/home/user/DocmentsDirectory");
myLSAspace = lsa(myMatrix, dims=dimcalc_share());
LSA 空間から (余弦測定を使用して) 非類似度行列を構築する必要があるため、次のようにクラスター アルゴリズムを呼び出すことができます。
clusters = pam(dissimilartiyMatrix,10,diss=TRUE);
助言がありますか?
前もって感謝します!