テキスト収集にはWEKAを使用しています。テキストを含むn個のドキュメントがあり、各ドキュメントの特徴ベクトルとしてTFIDを計算し、各ドキュメント間のコサイン類似度を計算したとします.nXnマトリックスを生成しました。今、k-mean アルゴリズムでこの nxn 行列を使用する方法を知りたいです。MDS や PCA などの次元削減を適用できることはわかっています。ここで私が混乱しているのは、次元削減を適用した後、そのドキュメント自体をどのように識別するかということです。 ,d33 PCA または MDS の後に何が出力されるのか、kmean の後にドキュメントをどのように識別するのかがわかりません。提案してください。私は私の質問を明確にしたことを願っています