1

Alteryx での k-means クラスタリングの結果でいくつかの問題に直面しています。約 5000 のテキスト記述のデータ セットでトピック モデリングを実行しようとしています。データのクリーニング、解析、およびストップ ワードと一般的な単語の削除を行った後、20 語と約 5000 のドキュメントからなるドキュメント ターム マトリックスを作成しました。

Alteryx で K-Means クラスタリングを実行した後は、指定したクラスターの数に関係なく、すべてのクラスターで常に 1 つのドキュメントしか存在しませんが、1 つだけが残っています。例えば:

2 クラスター

  • クラスタ 1: 19 語
  • クラスター 2: 1 単語

3 クラスター

  • クラスタ 1: 18 語
  • クラスター 2: 1 単語
  • クラスタ 3: 1 単語

5 クラスタ

  • クラスタ 1: 16 語
  • クラスター 2: 1 単語
  • クラスタ 3: 1 単語
  • クラスタ 4: 1 単語
  • クラスタ 5: 1 単語

このクラスター化動作は、指定したクラスターの数に関係なく発生します。これらの結果がデータに問題があることを意味するのか、それとも正しい設定を使用しなかったのかを明らかにし、特定するための助けをお探しですか?

前もって感謝します!

4

1 に答える 1

0

前処理後のデータを確認しましたか?

おそらく、多くのドキュメントが空であるか、1 つの単語しか含まれていない可能性があります。

共通の言葉を見つけることを除いて、あまり残っていません。

于 2018-10-18T08:13:15.387 に答える