建物の中を歩き回っている人々を追跡する必要があります。地上 6 メートル (20 フィート) の天井に下向きの Web カメラを取り付けました。
複数のウェブカメラでリアルタイムで実行する計画であるため、パフォーマンスは重要です。現在、私は単一のカメラをマウントしており、GPU で VIBE を使用してバックグラウンド減算を行うと、720p で最大 320 fps を取得できます。
VIBE はうまく機能しますが、一貫性に苦労しています。人が互いに近づきすぎると、それらは 1 つのブロブと見なされます。人間以外の物体の動きも無視する必要があります。
何が人間で、何が私の VIBE 出力に含まれていないかを判断する方法について、皆さんからの意見やアイデアが本当に必要です。賢明なアプローチは何でしょうか?私は人間を特定の正方形のピクセル サイズを持つものとして定義しようとしましたが、人間と人間以外の動きを区別するためのよりスマートな方法があるに違いないと感じています。
オプティカル フロー、追跡学習検出アルゴリズム (OpenTLD?)、優れたパフォーマンスの HOG など、別のアプローチが理にかなっている場合、私はそれについて聞くことに非常に興味があります。
どんな考えや意見も歓迎します:)