私はヴィオラ・ジョーンズの方法を理解しようとしていますが、ほとんど理解しています。
より良いパフォーマンスを達成するために、強力な分類器にブーストされ、レイヤー/カスケードに編成された単純な Haar のような機能を使用します (明らかな「非オブジェクト」領域を気にしないでください)。
インテグラル イメージを理解していると思います。フィーチャの値がどのように計算されるかを理解しています。
私が理解できない唯一のことは、アルゴリズムが顔のサイズのバリエーションをどのように扱っているかです.
私が知る限り、彼らは画像上をスライドする 24x24 サブウィンドウを使用し、その中でアルゴリズムが分類器を通過し、その上に顔/オブジェクトがあるかどうかを判断しようとします。
私の質問は、1 つの面が 10x10 サイズで、他の面が 100x100 の場合はどうなるかということです。その後どうなりますか?
そして、これらの最初の 2 つの機能 (カスケードの最初の層) が何であるか、それらがどのように見えるかを知りたくてたまらない (Viola&Jones によると、これらの 2 つの機能は顔を見逃すことはほとんどなく、間違ったものの60%)?どのように??
そして、画像内のさまざまな顔サイズのこれらの統計で機能するように、これらの機能をどのように構築できるのでしょうか?
何かが足りないのでしょうか、それともすべて間違っているのでしょうか?
十分に明確でない場合は、混乱をより適切に説明しようとします。