python - Doc2vec を使用した後にクラスターの結果を解釈する方法は?

Question

doc2vec を使用して、フォロワーの上位 100 件のツイートをベクトル表現 (v1.....v100 など) に変換しています。その後、ベクトル表現を使用して K-Means クラスターを実行しています。

model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2)

クラスター 0 がいくつかの値 (v10、v12、v23 など) によって支配されていることがわかります。私の質問は、これらの v10、v12 などは何を表しているのかということです。これらの特定の列がドキュメントの特定のキーワードをクラスター化していると推測できますか。

score 0 · Accepted Answer

クラスター自体は特定の意味を持ちません。クラスタはいくつでも持つことができ、クラスタリングアルゴリズムが行うことは、すべてのベクトルをこれらのクラスタに分散させようとすることだけです。すべてのツイートを認識しており、それらをいくつの異なるトピックに分けたいかがわかっている場合は、それらをクリーンアップするか、クラスター化アルゴリズムがそれらを使用して選択したクラスターに分離できるように機能を追加してみてください。

また、トピックモデリングを意味する場合、それはクラスタリングとは異なるため、それも調べる必要があります。

python - Doc2vec を使用した後にクラスターの結果を解釈する方法は?

3 に答える 3

Related

Reference