k-means - コサイン類似度からテキストクラスタリングを行う方法

Question

テキスト収集にはWEKAを使用しています。テキストを含むn個のドキュメントがあり、各ドキュメントの特徴ベクトルとしてTFIDを計算し、各ドキュメント間のコサイン類似度を計算したとします.nXnマトリックスを生成しました。今、k-mean アルゴリズムでこの nxn 行列を使用する方法を知りたいです。MDS や PCA などの次元削減を適用できることはわかっています。ここで私が混乱しているのは、次元削減を適用した後、そのドキュメント自体をどのように識別するかということです。 ,d33 PCA または MDS の後に何が出力されるのか、kmean の後にドキュメントをどのように識別するのかがわかりません。提案してください。私は私の質問を明確にしたことを願っています

score 0 · Accepted Answer

PCA は、距離ではなく生データで使用されPCA(X)ます。

MDS は距離関数、つまりを使用しますMDS(X, cosine)。

あなたは走る必要があると信じているように見えますPCA(cosine(X))か？それはうまくいきません。

実行したいMDS(X, cosine)。

k-means - コサイン類似度からテキスト クラスタリングを行う方法

1 に答える 1

Related

Reference

k-means - コサイン類似度からテキストクラスタリングを行う方法