そのため、OpenCV の haartraining およびカスケード トレーニング ツールに関する多くのチュートリアルに出くわしました。特に、createsamples ツールを使用して車の分類器をトレーニングすることに興味がありますが、-w パラメーターと -h パラメーターに関して矛盾するステートメントがいたるところにあるようで、混乱しています。私はコマンドを参照しています:
$ createsamples -info samples.dat -vec samples.vec -w 20 -h 20
次の 3 つの質問があります。
ポジティブ サンプルのアスペクト比は、上記の -w および -h パラメータから得られるアスペクト比と同じである必要があることを理解しています。しかし、すべての陽性サンプルの -w および -h パラメータも同じサイズでなければなりませんか? 例えば。1000枚近くの画像があります。トリミング後、すべて同じサイズにする必要がありますか?
サイズではなくアスペクト比が問題である場合、OpenCV ツールで言及されている -w および -h パラメータと比較して、正のサンプルのアスペクト比をどの程度正確に一致させる必要がありますか? つまり、分類器は非常に敏感なので、あちこちで数ピクセルずれてもパフォーマンスに影響しますか? または、画像がすべてほぼ同じ比率である限り、画像を操作しても安全だと言えますか?
すでにいくつかの画像を同じサイズにトリミングしています。しかし、それらをすべて同じサイズにしようとすると、バウンディング ボックスに含まれる背景が他よりも少し多くなり、余白がわずかに異なるものもあります。(たとえば、下の 2 つの画像を参照してください。大きな車は画像の大部分を占めていますが、小さな車の周囲には広い余白があります)。このような画像のコレクションを持っていても問題ないのか、それとも分類器の精度が低下するので、対象のすべてのオブジェクト (この場合は車) の周りにより厳密な境界ボックスを確保する必要があるのでしょうか?