image-processing - 背景の大部分が巨大な画面であるビデオ (ビデオの再生) で前景を抽出することは可能ですか?

Question

私は、一連の Kinect カメラを使用したマルチビューテレプレゼンスプロジェクトに取り組んでいます。
視覚的な品質を向上させるために、前景を抽出する必要があります。たとえば、中央に立っている人は、深度画像ではなくカラー画像を使用します。これは、より信頼性の高いカラー画像を使用して深度画像のアーティファクトを修復したいためです。 .

ここでの問題は、前景オブジェクト (通常は 1 ～ 2 人) が、テレプレゼンスシステムの別のパーティを表示する巨大なスクリーンの前に立っており、このスクリーンが一部のキネクトで表示されていることです。これらのキネクトの前景を抽出することはまだ可能ですか? もしそうなら、正しい方向に私を向けることができますか?

既存のシステムに関する追加情報:
すべてのキネクトの深度マップをマージするシステムが既に実行されていますが、これだけでは十分ではありません。Kinect 深度センサーには、干渉やセンサーまでの距離など、多くの問題があります。また、色センサーと深度センサーがわずかにずれているため、深度データを使用して再構築されたメッシュに色 (テクスチャなど) をマッピングすると、人の床がマッピングされることがあります。

これらの問題はすべて深度データの全体的な品質を低下させますが、カラーデータは低下させません。そのため、カラーイメージのシルエットを「本物の」シルエットと見なし、深度のシルエットを「壊れた」シルエットと見なすことができます。それにもかかわらず、メッシュは深度データを使用して構築されます。したがって、深度データを改善することは、システムの品質を改善することと同じです。
シルエットがある場合は、シルエットの外側にある誤った深度値を削除/変更したり、不足している深度値を内側に追加したりできます。

提供できるすべてのヒントに感謝します。

score 1 · Accepted Answer

この種の問題に関する私の経験では、あなたが提案する戦略は最善の方法ではありません。

背景が一定ではないため、解決したい問題は実際には 2D セグメンテーションです。これは難しい問題であり、人々は通常、セグメンテーションを容易にするために深さを使用しており、その逆ではありません。Kinect の複数の深度マップを結合/マージして、おそらくKinect 融合のような方法で、または従来のセンサー融合技術を使用して、深度画像を改善します。

自分の戦略に従うことが絶対に決まっている場合は、不完全な深度マップを使用して、Kinect の RGB カメラ画像を組み合わせて、背景の完全なビューを再構築することを試みることができます (その前にいる人による遮蔽はありません)。ただし、画面上の背景画像が変化するため、これには Kinect の RGB カメラを同期する必要がありますが、これは不可能だと思います。

コメント/更新に照らして編集する

画面上の画像に関する知識を活用することが、シルエットを強調するために背景を差し引く唯一のチャンスだと思います。正しく理解すれば、画面は立体ディスプレイなので、これは難しい問題だと思います。

(r, g, b)画面に特定の画像を表示するときに、Kinect RGB カメラが見るもの (立体視ディスプレイとその配置、センサーの種類など) を説明するモデルを計算することを試みることができます。ディスプレイにピクセルで(x, y)表示すると。これを行うには、キャリブレーションイメージのシーケンスを作成し、ディスプレイの前に人が立っていない状態でディスプレイに表示し、Kinect で撮影する必要があります。これにより、Kinect カメラでの画面の外観を予測できるようになり、バックグラウンド減算を計算できます。これはかなり難しい作業です (しかし、うまくいけば良い研究論文になるでしょう)。(r',g',b')(x',y')

補足: Kinect の深度カメラとカラーカメラの幾何学的な関係を簡単に計算して、人物の床をマッピングしないようにすることができます。一部の Kinect API では、深度カメラの生の画像を取得できます。IR プロジェクターを覆うと、深度カメラと RGB カメラの両方でキャリブレーションパターンを撮影し、外部キャリブレーションを計算できます。

image-processing - 背景の大部分が巨大な画面であるビデオ (ビデオの再生) で前景を抽出することは可能ですか?

1 に答える 1

Related

Reference