r - 類似性に基づく非構造化テキストのクラスタリングと最適なクラスタ数の計算

Question

私はデータマイニングの初心者で、解決しようとしているクラスタリングの問題へのアプローチを最初に定式化しようとしています。

それぞれが特定のスタイル (ユニークな言葉の使用など) を持つ x 人の作家がいるとします。彼らはそれぞれ、複数の短いテキストを書きます。たとえば、俳句です。私たちは著者からこれらの何百もの俳句を収集し、文脈分析を使用して、そもそも何人の著者がいたかを俳句から理解しようとします (大戦争の後、著者の数の記録をどういうわけか失ってしまいました!)。

これらの俳句ごとに単語のハッシュテーブルを作成するとします。次に、各ベクトル間の類似した単語の繰り返しを調べる距離関数を作成できます。これにより、ある種の k-mean クラスタリング関数を実装できます。

私の問題は、クラスターの数、つまり著者の数を確率的に測定することです。これにより、最適な適合が得られます。

何かのようなもの：

number of authors | probability
1, 0.05
2, 0.1
3, 0.2
4, 0.4
5, 0.1
6, 0.05
7, 0.03
8, 0.01

ここでの唯一の制約は、著者 (またはクラスター) の数が無限大になるにつれて、確率のシグマが 1 に収束する必要があるということです。

この2番目の部分を実装する方法について、誰か考えや提案はありますか?

score 1 · Accepted Answer

ベイジアン統計を使用してアプローチを定式化しましょう。

P(K)著者数の事前確率を選択しKます。たとえば、著作物を目にする前に、予想される著者の数はどこにあるK ~ Geometric(p)とサポート付きで言うことができます。{1, 2, ... }E[K] = 1 / p
一定数の著者が与えられたL(D|K)場合に、執筆データに尤度を割り当てる尤度関数を選択します。たとえば、は期待値の最大化によって検出された k 成分 GMM の誤差の合計量であると言えます。本当に徹底するには、データから学ぶことができます。インターネットには有名な作家の俳句があふれています。DKL(D|K)L(D|K)
K事後確率を最大化するの値を見つけP(K|D)ます - 著者の数についてのあなたの最良の推測です。は一定で、に比例するのでP(K|D) = P(D|K)P(K)/P(D)、次のようになることに注意してください。P(D)L(D|K)P(D|K)

max { P(K|D) | K = 1, 2, ... } = max { L(D|K)P(K) | K = 1, 2, ... }

あなたの質問に関して、あなたの表の最初の列はに対応しK、2 番目の列は正規化されたP(K|D);に対応します。つまり、に比例しL(D|K)P(K)ます。

r - 類似性に基づく非構造化テキストのクラスタリングと最適なクラスタ数の計算

1 に答える 1

Related

Reference