私はデータ マイニングの初心者で、解決しようとしているクラスタリングの問題へのアプローチを最初に定式化しようとしています。
それぞれが特定のスタイル (ユニークな言葉の使用など) を持つ x 人の作家がいるとします。彼らはそれぞれ、複数の短いテキストを書きます。たとえば、俳句です。私たちは著者からこれらの何百もの俳句を収集し、文脈分析を使用して、そもそも何人の著者がいたかを俳句から理解しようとします (大戦争の後、著者の数の記録をどういうわけか失ってしまいました!)。
これらの俳句ごとに単語のハッシュ テーブルを作成するとします。次に、各ベクトル間の類似した単語の繰り返しを調べる距離関数を作成できます。これにより、ある種の k-mean クラスタリング関数を実装できます。
私の問題は、クラスターの数、つまり著者の数を確率的に測定することです。これにより、最適な適合が得られます。
何かのようなもの:
number of authors | probability
1, 0.05
2, 0.1
3, 0.2
4, 0.4
5, 0.1
6, 0.05
7, 0.03
8, 0.01
ここでの唯一の制約は、著者 (またはクラスター) の数が無限大になるにつれて、確率のシグマが 1 に収束する必要があるということです。
この2番目の部分を実装する方法について、誰か考えや提案はありますか?