cluster-analysis - 非常に不均衡/歪んだデータクラスター

Question

Alteryx での k-means クラスタリングの結果でいくつかの問題に直面しています。約 5000 のテキスト記述のデータセットでトピックモデリングを実行しようとしています。データのクリーニング、解析、およびストップワードと一般的な単語の削除を行った後、20 語と約 5000 のドキュメントからなるドキュメントタームマトリックスを作成しました。

Alteryx で K-Means クラスタリングを実行した後は、指定したクラスターの数に関係なく、すべてのクラスターで常に 1 つのドキュメントしか存在しませんが、1 つだけが残っています。例えば：

2 クラスター

クラスタ 1: 19 語
クラスター 2: 1 単語

3 クラスター

クラスタ 1: 18 語
クラスター 2: 1 単語
クラスタ 3: 1 単語

5 クラスタ

クラスタ 1: 16 語
クラスター 2: 1 単語
クラスタ 3: 1 単語
クラスタ 4: 1 単語
クラスタ 5: 1 単語

このクラスター化動作は、指定したクラスターの数に関係なく発生します。これらの結果がデータに問題があることを意味するのか、それとも正しい設定を使用しなかったのかを明らかにし、特定するための助けをお探しですか?

前もって感謝します！

score 0 · Accepted Answer

前処理後のデータを確認しましたか?

おそらく、多くのドキュメントが空であるか、1 つの単語しか含まれていない可能性があります。

共通の言葉を見つけることを除いて、あまり残っていません。

cluster-analysis - 非常に不均衡/歪んだデータ クラスター

2 クラスター

3 クラスター

5 クラスタ

1 に答える 1

Related

Reference

cluster-analysis - 非常に不均衡/歪んだデータクラスター