0

doc2vec を使用して、フォロワーの上位 100 件のツイートをベクトル表現 (v1.....v100 など) に変換しています。その後、ベクトル表現を使用して K-Means クラスターを実行しています。

model = Doc2Vec(documents=t, size=100, alpha=.035, window=10, workers=4, min_count=2)

クラスター 0 がいくつかの値 (v10、v12、v23 など) によって支配されていることがわかります。私の質問は、これらの v10、v12 などは何を表しているのかということです。これらの特定の列がドキュメントの特定のキーワードをクラスター化していると推測できますか。

4

3 に答える 3

0

クラスター自体は特定の意味を持ちません。クラスタはいくつでも持つことができ、クラスタリング アルゴリズムが行うことは、すべてのベクトルをこれらのクラスタに分散させようとすることだけです。すべてのツイートを認識しており、それらをいくつの異なるトピックに分けたいかがわかっている場合は、それらをクリーンアップするか、クラスター化アルゴリズムがそれらを使用して選択したクラスターに分離できるように機能を追加してみてください。

また、トピック モデリングを意味する場合、それはクラスタリングとは異なるため、それも調べる必要があります。

于 2017-08-28T12:28:21.727 に答える