2

「4916 のポジティブ トレーニング サンプルが手動で選択され、整列、正規化、および 24x24 の基本解像度にスケーリングされました。10,000 のネガティブ サンプルは、顔を含まない 9500 枚の画像からサブウィンドウをランダムに選択することによって選択されました」と言われています。論文「Robust Real-Time Face Detection by Paul Viola & Michael Jones」

私の質問は、24x24 の基本解像度に整列、正規化、スケーリングされたものを手作業で選択することについて、彼らは何を意味するのでしょうか?

「厳選された」とは、4916 の異なる顔の 4916 のポジティブな画像があることを意味しますか? 「正規化」とは、4916 枚の画像のそれぞれが同じ特徴 [ファイル サイズ、ファイルの種類、画像の色 (グレー スケール/カラー)] を持っていることを意味しますか? 「24x24 の基本解像度にスケーリング」とは、4916 個の画像のそれぞれが 24x24 ピクセルにサイズ変更されることを意味しますか?

御時間ありがとうございます!

4

1 に答える 1

2

「手で選んだ位置合わせ」とは、4916の異なる顔の4916のポジティブな画像があることを意味しますか?

必ずしも明確ではありませんが、そうです、彼らは4916の異なる顔の写真を提供しました。顔は「人間の専門家」によって手動で発見されました。

「正規化」とは、4916枚の画像のそれぞれが同じ機能[ファイルサイズ、ファイルタイプ、画像の色(グレースケール/カラー)]を持っていることを意味しますか?

彼らはグレースケールのピクセルのみを使用しました。正規化されたということは、「黒」と「白」の画像がないことを確認したことを意味します。写真が非常に暗い場合(自動的に明るくなり、十分に暗くない場合)は暗くなります。これは、自動コンポーネントによって簡単に実行されます。

「24x24の基本解像度にスケーリング」とは、4916枚の画像のそれぞれが24x24ピクセルにサイズ変更されることを意味しますか?

はい、画像に何らかの処理を適用することで、各「顔」が正確に24x24ピクセルであることを確認しました。

于 2012-12-06T23:47:44.210 に答える