あなたが求めている質問は次のとおりです:次元 D の N 個のポイントのセット(たとえば、最初に「speaker1」としてクラスター化したポイント) が与えられた場合、それらのポイントに D 次元のガウス分布を当てはめます (これを「speaker1 を表すガウス分布」と呼びます) )。これを行うには、標本平均と標本共分散を計算するだけです: http://en.wikipedia.org/wiki/Multivariate_normal_distribution#Estimation_of_parametersまたはhttp://en.wikipedia.org/wiki/Sample_mean_and_covariance
他の k=8 スピーカーについて繰り返します。「ノンパラメトリック」確率プロセスを使用するか、アルゴリズムを変更して (たとえば、多くのスピーカーで数回実行する)、k=8 スピーカーの仮定を取り除くことができると思います。標準の k-means クラスタリング アルゴリズム (および EM のような他の一般的なアルゴリズム) は、初期化の方法に応じて異なる答えが得られるという点で非常に気まぐれであることに注意してください。それらを発見してください。
(以下は、質問を明確にする前の私の答えです)
共分散は 2 つの確率変数のプロパティであり、一方の変更が他方にどの程度影響するかを大まかに測定したものです。
共分散行列は、cov(x_i,y_j)
セット X=(x1,x2,...,xN) および Y=(y1,y2,...,yN) の各要素である NxM の個別の共分散 の単なる表現です。
つまり、質問は、検索しているこの「共分散行列」で実際に何をしようとしているのかということです。メル周波数ケプストラム係数...各係数はオクターブの各音符に対応していますか? 希望するクラスタ数を選択k=12
しましたか? 基本的に音楽の音符を拾おうとしているのですか?
共分散がベクトルにどのように一般化されるかはわかりませんが、2 つのベクトル x と y の間の共分散はE[x dot y] - (E[x] dot E[y])
(基本的に乗算を内積に置き換える) だけで、共分散行列の要素ごとに 1 つのスカラーが得られると思います。次に、このプロセスを 2 つの for ループ内に貼り付けます。
または、各次元の共分散行列を個別に見つけることもできます。自分が何をしているのかを正確に知らなければ、それ以上のアドバイスはできません。