カメラ画像から抽出した特徴点の 3D 位置を再構築したいプロジェクトに取り組んでいます。アイデアは次のとおりです。
- カメラ録画 (グレースケール情報、VGA サイズ: 640 x 480)
- カメラフレームの特徴点を抽出します(これにはSIFTを使用しています)
- frame[k-1] の機能を frame[k] の機能に対応させます (これには RANSAC を使用する予定です。詳しくは後で説明します...)
- これらの特徴点間の相対距離情報を計算/推定します (これは (x,y,z) 座標系になります)
RANSAC は再構成に使用されるアルゴリズムであり、最終結果はある種の点群になるという多くの論文を読みました。それだけできるようになりたい。しかし、私はいくつかの問題に遭遇しました。皆さんが私を助けてくれることを願っています.
最初の問題は、RANSAC を使用してこのポイント通信を実行する方法がよくわからないことです。RANSAC がモデル フィッティング ツールであるという概念は理解していますが、対応解決にどのように使用できるかわかりません。
2 番目の問題は、対応情報があると仮定して、これらすべてのポイント間の何らかの距離情報を取得する方法です。透視投影を使用してこれを解決できることを読んだことがあります。次に、基本マトリックスを推定する必要があります。次に、点群を取得できるように数学の魔法を実行します。ポイントは、基本マトリックスの実際の値が何を意味するのか理解できないということです。2台のカメラ(または私の場合、カメラが動いているビデオの2フレーム)の位置の間に数学的な関係があり、エピポーラジオメトリを利用していることを知っています。しかし、これ以外に、ファンダメンタル マトリックスが実際に何を意味するのか、私にはまったくわかりません。この 3x3 マトリックスは、あるカメラと別のカメラの 6DOF をどのように捉えているのでしょうか? また、「数学の魔法」だと思います
したがって、私の質問は次のとおりです。あなたの誰かが私を正しい方向に向けることができますか? これまでに読んだ論文の参考文献を掘り下げてきましたが、これらは「RANSACアルゴリズムを使用してこれを解決する」という行も与えており、間違っていると感じています。方向。おそらく素人の言葉やイラストを使って、これらのことについての良い説明はありますか?要するに、どこを見ればいいのですか、またはこのとらえどころのない情報をどこで見つけることができますか?
前もってありがとう、Xilconic
PS: ウィキペディアをチェックしましたが、あまり役に立ちません。「ファンダメンタル マトリックス ソング」も聴きましたが、同じ話です。