私はHOG記述子に取り組んでおり、検出ウィンドウの融合を除いて、ほとんどの部分でほぼ完了しています。
私がこれまでに行ったことは、画像のスケールスペースピラミッドを構築し、各スケールの各画像について、検出ウィンドウ(64x128)を移動して人間を検出します。各画像で、人は複数のウィンドウで検出されます。
したがって、問題は、これらすべてのウィンドウ(1人の場合を想定)を1つのウィンドウにどのように融合するかです。Dalalは、平均シフトなどの堅牢なmod検出アルゴリズムを使用する必要があることを示唆しています。しかし、私は複数のスケールを持っています...それを行うために、最初にスケール空間のより低いレベルで見つかった検出ウィンドウの実際の位置を推定する必要がありますか?
どんな助けでも大歓迎です。前もって感謝します。