0

テキスト収集にはWEKAを使用しています。テキストを含むn個のドキュメントがあり、各ドキュメントの特徴ベクトルとしてTFIDを計算し、各ドキュメント間のコサイン類似度を計算したとします.nXnマトリックスを生成しました。今、k-mean アルゴリズムでこの nxn 行列を使用する方法を知りたいです。MDS や PCA などの次元削減を適用できることはわかっています。ここで私が混乱しているのは、次元削減を適用した後、そのドキュメント自体をどのように識別するかということです。 ,d33 PCA または MDS の後に何が出力されるのか、kmean の後にドキュメントをどのように識別するのかがわかりません。提案してください。私は私の質問を明確にしたことを願っています

4

1 に答える 1

0

PCA は、距離ではなく生データで使用されPCA(X)ます。

MDS は距離関数、つまり を使用しますMDS(X, cosine)

あなたは走る必要があると信じているように見えますPCA(cosine(X))か?それはうまくいきません。

実行したいMDS(X, cosine)

于 2016-06-21T18:11:06.420 に答える