「4916 のポジティブ トレーニング サンプルが手動で選択され、整列、正規化、および 24x24 の基本解像度にスケーリングされました。10,000 のネガティブ サンプルは、顔を含まない 9500 枚の画像からサブウィンドウをランダムに選択することによって選択されました」と言われています。論文「Robust Real-Time Face Detection by Paul Viola & Michael Jones」
私の質問は、24x24 の基本解像度に整列、正規化、スケーリングされたものを手作業で選択することについて、彼らは何を意味するのでしょうか?
「厳選された」とは、4916 の異なる顔の 4916 のポジティブな画像があることを意味しますか? 「正規化」とは、4916 枚の画像のそれぞれが同じ特徴 [ファイル サイズ、ファイルの種類、画像の色 (グレー スケール/カラー)] を持っていることを意味しますか? 「24x24 の基本解像度にスケーリング」とは、4916 個の画像のそれぞれが 24x24 ピクセルにサイズ変更されることを意味しますか?
御時間ありがとうございます!