image-processing - 方向勾配のヒストグラム

Question

オブジェクト（人間）検出のための HOG 記述子に関する理論を読んでいます。しかし、些細なことのように聞こえるかもしれませんが、実装についていくつか質問があります。

ブロックを含むウィンドウについて。次に示すように、各ステップでウィンドウが重なる位置で、ウィンドウを画像上でピクセルごとに移動する必要があります。ここに画像の説明を入力

または、次のように、重複を引き起こさずにウィンドウを移動する必要があります。ここに画像の説明を入力

これまで見てきたイラストは、2 番目のアプローチを使用していました。ただし、検出ウィンドウのサイズが 64x128 であることを考慮すると、ウィンドウを画像上でスライドさせても、画像全体をカバーできない可能性が高くなります。画像のサイズが 64x255 の場合、最後の 127 ピクセルはオブジェクトのチェック対象になりません。したがって、最初のアプローチはより合理的に見えますが、より多くの時間と CPU を消費します。

何か案は？前もって感謝します。

編集: Dalal と Triggs の元の論文に固執しようとしています。アルゴリズムを実装し、2 番目のアプローチを使用する 1 つの論文は、次の場所にあります。

score 4 · Accepted Answer

編集：申し訳ありません-私はあなたの質問を誤解しました。（また、私が間違った質問に提供した答えは誤りでした-それ以来、文脈に合わせて以下で調整しました。）

HOG記述子を生成するのではなく、検出にHOG記述子を使用することについて質問しています。

上記で参照した実装ペーパーでは、検出ウィンドウと重なっているように見えます。ウィンドウサイズは64x128で、水平方向のストライドは32ピクセル、垂直方向のストライドは64です。また、ストライド値を小さくしようとしたとのことですが、これにより、誤検出率が高くなりました（実装のコンテキストで）。

その上、入力画像の3つのスケール（1、1 / 2、および1/4）を使用しています。検出ウィンドウの対応するスケーリングについては言及されていません。検出の観点からどのような影響があるかはわかりません。これにより、暗黙的にオーバーラップも作成されるようです。

元の回答（修正済み）：

Dalal and Triggsの論文（セクション6.4）を見ると、HOG記述子を生成するときに、i）ブロックのオーバーラップがないこと、およびii）ハーフブロックとクォーターブロックのオーバーラップの両方について言及しているようです。それらの結果に基づくと、オーバーラップが大きいほど検出パフォーマンスが向上したように見えます（ただし、リソース/処理コストは高くなります）。

image-processing - 方向勾配のヒストグラム

1 に答える 1

Related

Reference