5

私はHOG記述子に取り組んでおり、検出ウィンドウの融合を除いて、ほとんどの部分でほぼ完了しています。

私がこれまでに行ったことは、画像のスケールスペースピラミッドを構築し、各スケールの各画像について、検出ウィンドウ(64x128)を移動して人間を検出します。各画像で、人は複数のウィンドウで検出されます。

したがって、問題は、これらすべてのウィンドウ(1人の場合を想定)を1つのウィンドウにどのように融合するかです。Dalalは、平均シフトなどの堅牢なmod検出アルゴリズムを使用する必要があることを示唆しています。しかし、私は複数のスケールを持っています...それを行うために、最初にスケール空間のより低いレベルで見つかった検出ウィンドウの実際の位置を推定する必要がありますか?

どんな助けでも大歓迎です。前もって感謝します。

4

1 に答える 1

1

私の解釈は、意味のあるシフトは、あなたが提案していることを効果的に与えるというものです。

基本的に、検出器の出力の強度に基づいて、最初に最も粗いスケールで人物の位置の確率分布を推定します。これにより、モードのロバストな推定が得られます。

次に、最大値または最頻値付近のより細かいスケールを使用して、繰り返し調整できます。

この考え方は、たとえば、ピラミッド LK 追跡で使用されるものと非常によく似ています。アンサンブル処理や粒子フィルターを実行することもできます。

于 2011-05-13T12:19:14.253 に答える