私は、モバイル コンテキストで「リアルタイム」にシーン内の既知の画像を検出するプロジェクトに取り組んでいます (つまり、スマートフォンのカメラを使用してフレームをキャプチャし、フレームのサイズを 150x225 に変更しています)。絵自体はかなり複雑になる可能性があります。現在、各フレームを平均 1.2 秒で処理しています (OpenCV を使用)。この処理時間と全体的な精度を改善する方法を探しています。私の現在の実装は次のように機能します:
- フレームをキャプチャする
- グレースケールに変換する
- キーポイントを検出し、ORB を使用して記述子を抽出する
- 記述子 (2NN) (オブジェクト -> シーン) を一致させ、比率テストでフィルター処理します
- 記述子 (2NN) (シーン -> オブジェクト) を一致させ、比率テストでフィルター処理します
- 4. と 5. による非対称マッチングの削除。
- 一致する信頼度を計算します (キーポイントの合計に対する一致したキーポイントの割合)
私のアプローチは正しいものではないかもしれませんが、改善の余地はたくさんありますが、結果は問題ありません。SURF 抽出が遅すぎて、ホモグラフィを使用できなかったことに既に気付きました (ORB に関連している可能性があります)。すべての提案を歓迎します!