Alteryx での k-means クラスタリングの結果でいくつかの問題に直面しています。約 5000 のテキスト記述のデータ セットでトピック モデリングを実行しようとしています。データのクリーニング、解析、およびストップ ワードと一般的な単語の削除を行った後、20 語と約 5000 のドキュメントからなるドキュメント ターム マトリックスを作成しました。
Alteryx で K-Means クラスタリングを実行した後は、指定したクラスターの数に関係なく、すべてのクラスターで常に 1 つのドキュメントしか存在しませんが、1 つだけが残っています。例えば:
2 クラスター
- クラスタ 1: 19 語
- クラスター 2: 1 単語
3 クラスター
- クラスタ 1: 18 語
- クラスター 2: 1 単語
- クラスタ 3: 1 単語
5 クラスタ
- クラスタ 1: 16 語
- クラスター 2: 1 単語
- クラスタ 3: 1 単語
- クラスタ 4: 1 単語
- クラスタ 5: 1 単語
このクラスター化動作は、指定したクラスターの数に関係なく発生します。これらの結果がデータに問題があることを意味するのか、それとも正しい設定を使用しなかったのかを明らかにし、特定するための助けをお探しですか?
前もって感謝します!