6

私はヴィオラ・ジョーンズの方法を理解しようとしていますが、ほとんど理解しています。

より良いパフォーマンスを達成するために、強力な分類器にブーストされ、レイヤー/カスケードに編成された単純な Haar のような機能を使用します (明らかな「非オブジェクト」領域を気にしないでください)。

インテグラル イメージを理解していると思います。フィーチャの値がどのように計算されるかを理解しています。

私が理解できない唯一のことは、アルゴリズムが顔のサイズのバリエーションをどのように扱っているかです.

私が知る限り、彼らは画像上をスライドする 24x24 サブウィンドウを使用し、その中でアルゴリズムが分類器を通過し、その上に顔/オブジェクトがあるかどうかを判断しようとします。

私の質問は、1 つの面が 10x10 サイズで、他の面が 100x100 の場合はどうなるかということです。その後どうなりますか?

そして、これらの最初の 2 つの機能 (カスケードの最初の層) が何であるか、それらがどのように見えるかを知りたくてたまらない (Viola&Jones によると、これらの 2 つの機能は顔を見逃すことはほとんどなく、間違ったものの60%)?どのように??

そして、画像内のさまざまな顔サイズのこれらの統計で機能するように、これらの機能をどのように構築できるのでしょうか?

何かが足りないのでしょうか、それともすべて間違っているのでしょうか?

十分に明確でない場合は、混乱をより適切に説明しようとします。

4

1 に答える 1

6

トレーニング

Viola-Jones 分類器は 24*24 画像でトレーニングされます。各顔画像には、同様にスケーリングされた顔が含まれています。これにより、特定のサイズの顔に合わせて最適化された 2 つ、3 つ、または 4 つの長方形から構築された一連の特徴検出器が生成されます。

フェイスサイズ

異なるスケールで分類を繰り返すことにより、異なる顔サイズが検出されます。元の論文では、1.25 倍離れたさまざまなスケールを試すことで良好な結果が得られると述べています。

積分画像は、長方形の角の座標をスケーリングするだけで、任意のスケールで長方形の特徴を簡単に計算できることを意味することに注意してください。

最高の機能

元の論文には、典型的なカスケードで選択された最初の 2 つの機能の写真が含まれています (4 ページを参照)。

最初の特徴は、頬の幅の広い明るい長方形の上にある目の幅の広い暗い長方形を検出します。

----------
----------
++++++++++
++++++++++

2 番目の機能は、目を含む両側の暗い長方形の間にある鼻梁の明るい薄い長方形を検出します。

---+++---
---+++---
---+++---
于 2012-09-02T19:02:21.663 に答える