1

この記事のコードを書こうとしています: 「自動オーディオビジュアル ビデオ構造化のための教師なしマイニングにおけるクラスタ選択とイベント モデリングの改善」
の一部は、ビデオ クラスタリングに関するものです:
「ビデオ ストリームは、カラー ヒストグラムに基づいてショットに分割されます。急激な変化と漸進的な遷移を検出します. 結果の各ショットは、ショットの中央で撮影されたキー フレームによって要約され、色ごとに 8 つのビンを持つ RGB ヒストグラムとして表されます. ボトムアップ クラスタリングはユークリッド距離に依存します.ウォードのリンケージを使用した 512 次元の色ヒストグラムの間。」
私はこれを行い、次のような数値の配列に到達しました:
1.0e+03 *

3.8334
3.9707
3.8887
2.1713
2.5616
2.3764
2.4533

デンドログラムの部分を実行した後、結果は次のようになりました。

 174.0103
 175.0093
 176.0093
 177.0093
178.0093
 178.0093
179.0093

しかし、記事の著者によって与えられたおもちゃの例によると、結果は次のような間隔になるはずです:
{47000, 50000}, {143400, 146400}, {185320, 187880},{228240, 231240}, {249440, 252000} 、{346000、349000} ここで何が問題なのですか?

4

1 に答える 1

0

最初のステップで 512 次元のベクトル、フレームごとに 1 つのベクトル、または同等の 512 xn 行列が必要です。

次に、2番目のステップでは、プレーンな組み込みの階層的クラスタリングを使用しているとは思わない.階層的クラスタリングに触発され、ウォードのリンケージを使用するが、時間間隔で動作する、カスタマイズされたクラスタリング アルゴリズムを使用します。単一のフレームから始めますが、通常の階層的クラスタリングのような任意の間隔ではなく、隣接する間隔のみを結合します。

于 2013-08-04T08:06:36.833 に答える