簡単に言えば、Structure from Motion (SfM) と MultiView Stereo (MVS) の手法は、同じ仮定を扱っていないため、補完的です。また、それらは入力、つまり SfM によって推定 (出力) されるカメラ パラメーターを実行するために必要な MVS もわずかに異なります。SfM は粗い 3D 出力のみを提供しますが、PMVS2 はより高密度の出力を提供し、最終的に CMVS は PMVS2 のいくつかの制限を回避するために存在します。
回答の残りの部分では、各方法がどのように機能するかの概要を説明し、その理由を説明しています。
動きからの構造
強調した 3D 再構築パイプラインの最初のステップは、 Bundler、VisualSFM、OpenMVGなどを使用して実行できる SfM アルゴリズムです。このアルゴリズムは、いくつかの入力画像を取り込み、各画像のカメラ パラメーター (詳細は後述) と、シーンの粗い3D 形状 (スパース再構成と呼ばれることが多い) を出力します。
SfM が粗い 3D 形状しか出力しないのはなぜですか? 基本的に、SfM 手法は、すべての入力画像で 2D 特徴を検出し、それらの特徴を画像のペア間で照合することから始まります。目標は、たとえば、「このテーブルのコーナーは、これらの画像のピクセル位置にあります」と伝えることです。これらの機能は、記述子と呼ばれるもの (SIFT や ORB など) によって記述されます。これらの記述子は、画像内の小さな領域 (つまり、隣接するピクセルの集まり) を表すために作成されます。それらは高度にテクスチャ化された、または粗いジオメトリ (エッジなど) を確実に表すことができますが、これらのシーンの特徴は、シーン全体で (区別するという意味で) 一意である必要があります。たとえば (単純化しすぎているかもしれませんが)、繰り返しパターンのある壁は再構築にはあまり役に立ちません。壁のすべての領域は、壁の他のほとんどの場所と一致する可能性があります。SfM はこれらの機能を使用して 3D 再構成を実行しているため、3D シーン再構成の頂点はそれらの固有のテクスチャまたはエッジに配置され、粗いメッシュが出力として提供されます。SfM は通常、正確で特徴的なテクスチャがなければ、サーフェスの中央に頂点を生成しません。しかし、画像間で多くの一致が見つかった場合、画像間の 3D 変換行列を計算して、2 つのカメラ ポーズ間の相対的な 3D 位置を効果的に与えることができます。通常、サーフェスの中央に頂点が生成されますが、正確で明確なテクスチャはありません。しかし、画像間で多くの一致が見つかった場合、画像間の 3D 変換行列を計算して、2 つのカメラ ポーズ間の相対的な 3D 位置を効果的に与えることができます。通常、サーフェスの中央に頂点が生成されますが、正確で明確なテクスチャはありません。しかし、画像間で多くの一致が見つかった場合、画像間の 3D 変換行列を計算して、2 つのカメラ ポーズ間の相対的な 3D 位置を効果的に与えることができます。
マルチビュー ステレオ
その後、MVS アルゴリズムを使用して、SfM 技術によって得られたメッシュを改良し、いわゆる高密度再構成を行います。このアルゴリズムでは、SfM アルゴリズムによって出力される各画像のカメラ パラメーターが機能する必要があります。より制約された問題 (位置、回転、焦点などのすべての画像のカメラ パラメーターが既にあるため) で動作するため、MVS は、記述子によって正しく検出されなかった (または検出できなかった) 領域の 3D 頂点を計算します。または一致します。これがPMVS2 の機能です。
2D 特徴記述子が一致しにくい領域で、PMVS をどのように機能させることができますか? カメラのパラメーターを知っているので、画像内の特定のピクセルが別の画像内の線の投影であることがわかります。このアプローチはエピポーラ幾何と呼ばれます。SfM はすべての記述子について 2D 画像全体をシークして潜在的な一致を見つける必要がありましたが、MVS は一致を見つけるために単一の 1D ラインで動作し、問題を大幅に簡素化します。そのため、MVS は通常、照明とオブジェクト マテリアルを最適化に考慮しますが、SfM は考慮しません。
ただし、問題が 1 つあります。PMVS2 は非常に複雑な最適化を実行するため、非常に遅くなるか、大きな画像シーケンスで天文学的な量のメモリを消費する可能性があります。ここでCMVSが活躍し、粗い 3D SfM 出力を領域にクラスタリングします。その後、各クラスターで PMVS2 が (場合によっては並行して) 呼び出され、その実行が簡素化されます。その後、CMVS は各 PMVS2 出力を統合された詳細モデルにマージします。
結論
この回答で提供されるほとんどの情報と、さらに多くの情報は、CMVS および PMVS2 の作成者である
古川康隆氏のチュートリアルにあります: http://www.cse.wustl.edu/~furukawa/papers/fnt_mvs.pdf
本質的に、両方の技術は 2 つの異なるアプローチから生まれます。SfM は、構造化された (しかし未知の) 画像シーケンスを使用して 3D 再構成を実行することを目的としていますが、MVS は、人間の立体視に基づく 2 ビュー ステレオ ビジョンの一般化です。