コールオブデューティーのゲームプレイのビデオで人物を見つけることができるプログラムを作成しようとしています。このビデオから、人物が含まれている、または含まれていない、約2200の個別の画像のリストをまとめました。次に、2セットの画像の違いを伝えるためにニューラルネットワークをトレーニングしようとしました。
次に、各ビデオフレームを数百のグリッド長方形に分割し、それぞれをANNで確認します。長方形は、グリッドの長方形の間にある図形をキャプチャしようと重なっていますが、これはうまく機能していないようです。だから私はいくつかの質問があります:
ニューラルネットワークは進むべき道ですか?他の機械学習アルゴリズムと比較して非常に高速であることを読みました。最終的には、これをリアルタイムのビデオで使用する予定であり、速度は非常に重要です。
ANNでテストするために画像フレーム内の図を検索するための最良の方法は何ですか?自分のやり方があまり良くない気がします。確かにそれほど速くも正確でもありません。画像960x540のフレームあたり約1秒かかり、精度が低くなります。
私が抱えていたもう1つの問題は、ANNへの入力として使用する特徴ベクトルを構築するための最良の方法です。現在、すべての入力画像を25 x 50ピクセルに縮小し、すべてのピクセルの強度を含む特徴ベクトルを作成しています。これは非常に大きなベクトルです(1250フロート)。特徴ベクトルを構築するためのより良い方法は何ですか?
私がここで行っていることの詳細については、CodAI:ComputerVisionをご覧ください。
編集:もう少し詳しく知りたいのですが。特徴を計算するための最良の方法は何ですか。私は多くの異なる位置で人間の姿を認識できる必要があります。直立、しゃがみ、傾向の違いを認識するために、個別の分類子を作成する必要がありますか?