11

オブジェクト(人間)検出のための HOG 記述子に関する理論を読んでいます。しかし、些細なことのように聞こえるかもしれませんが、実装についていくつか質問があります。

ブロックを含むウィンドウについて。次に示すように、各ステップでウィンドウが重なる位置で、ウィンドウを画像上でピクセルごとに移動する必要があります。ここに画像の説明を入力

または、次のように、重複を引き起こさずにウィンドウを移動する必要があります。ここに画像の説明を入力

これまで見てきたイラストは、2 番目のアプローチを使用していました。ただし、検出ウィンドウのサイズが 64x128 であることを考慮すると、ウィンドウを画像上でスライドさせても、画像全体をカバーできない可能性が高くなります。画像のサイズが 64x255 の場合、最後の 127 ピクセルはオブジェクトのチェック対象になりません。したがって、最初のアプローチはより合理的に見えますが、より多くの時間と CPU を消費します。

何か案は?前もって感謝します。

編集: Dalal と Triggs の元の論文に固執しようとしています。アルゴリズムを実装し、2 番目のアプローチを使用する 1 つの論文は、次の場所にあります

4

1 に答える 1

4

編集:申し訳ありません-私はあなたの質問を誤解しました。(また、私が間違った質問に提供した答えは誤りでした-それ以来、文脈に合わせて以下で調整しました。)

HOG記述子を生成するのではなく、検出にHOG記述子を使用することについて質問しています。

上記で参照した実装ペーパーでは、検出ウィンドウと重なっているように見えます。ウィンドウサイズは64x128で、水平方向のストライドは32ピクセル、垂直方向のストライドは64です。また、ストライド値を小さくしようとしたとのことですが、これにより、誤検出率が高くなりました(実装のコンテキストで)。

その上、入力画像の3つのスケール(1、1 / 2、および1/4)を使用しています。検出ウィンドウの対応するスケーリングについては言及されていません。検出の観点からどのような影響があるかはわかりません。これにより、暗黙的にオーバーラップも作成されるようです。


元の回答(修正済み):

Dalal and Triggsの論文(セクション6.4)を見ると、HOG記述子を生成するときに、i)ブロックのオーバーラップがないこと、およびii)ハーフブロックとクォーターブロックのオーバーラップの両方について言及しているようです。それらの結果に基づくと、オーバーラップが大きいほど検出パフォーマンスが向上したように見えます(ただし、リソース/処理コストは高くなります)。

于 2011-04-08T19:10:30.453 に答える