この有益な kaggle コンテストの紹介の最後に、 「 Viola と Jones の独創的な論文で使用されている方法は非常にうまく機能している」と述べています。ただし、その論文はバイナリ顔認識のシステムについて説明しており、対処されている問題は画像全体ではなくキーポイントの分類です。キーポイント認識のために Viola/Jones システムを調整する方法を正確に理解するのに苦労しています。
キーポイントごとに個別の分類器をトレーニングする必要があると思います。私が持っているいくつかのアイデアは次のとおりです。
固定サイズのサブイメージを繰り返し処理し、それぞれを分類します。中心ピクセルとしてキーポイントを持つイメージが良い例です。この場合、画像の端に近いピクセルをどうするかわかりません。
バイナリ分類器をトレーニングする代わりに、l*w の可能なクラス (ピクセルごとに 1 つ) で分類器をトレーニングします。これに関する大きな問題は、すべての弱分類器が突然 l*w*元の操作を行わなければならないため、非常に遅くなると思われることです。
私が持っている 3 番目のアイデアは、頭の中で完全にハッシュ化されているわけではありませんが、キーポイントは顔の大部分の各部分 (たとえば、目の左、右の中心) であるため、サブを分類しようとすることができるかもしれません。画像を目だけとして使用し、各顔パーツに最適なサブ画像の左、右、中央のピクセル (y 座標の中央) を使用します。
これらのアイデアにメリットはありますか? また、私が思いつかなかった方法はありますか?