コンピュータ ビジョンを使用して、次のことを行いたいと考えています。
カメラは建物の外に取り付けられ、下の通りのビデオ ストリームをキャプチャします。カメラは、道路から約 5 ~ 6 メートル上に設置されています。
特定の種類の帽子 (白い、丸い) をかぶった人がカメラにキャプチャされるたびに、イベントがトリガーされる必要があります。
この種の動作を実装するには、どのアルゴリズムを検討する必要がありますか?
これは、サンプル データを使用してアルゴリズムをトレーニングすることによって達成するのが最善ですか?それとも、このタイプの帽子を探すように指示する別の方法がありますか?
また、ビデオの複数のフレームを使用して検出の品質を向上させるにはどうすればよいですか?
編集:帽子の写真を追加しました