直感的には、ほとんどすべてのオブジェクトのさまざまな角度からの1ダースほどの2D画像が与えられれば、そのオブジェクトの3D表現を簡単に構築できるはずです。その後、この方法で得られた3D表現のライブラリを使用して、新しい2D画像を識別することができます。
これらの線に沿ってどのような文献がありますか、そしてなぜそれはまだ強力な物体認識を生み出していないのですか?
直感的には、ほとんどすべてのオブジェクトのさまざまな角度からの1ダースほどの2D画像が与えられれば、そのオブジェクトの3D表現を簡単に構築できるはずです。その後、この方法で得られた3D表現のライブラリを使用して、新しい2D画像を識別することができます。
これらの線に沿ってどのような文献がありますか、そしてなぜそれはまだ強力な物体認識を生み出していないのですか?
そこで問題を引き起こしているのは「直感的に」あなたの言葉です。あなたの脳は、瞬時に数千の数を掛けるなど、特定のタスクに非常に優れているようには設計されていません。ただし、生の計算能力の場合、脳は最速のコンピューターを単なるきちんとしたウィンクのように見せます(神経応答時間はわずか約10ミリ秒ですが、すべて並列に動作する10 ^ 14程度のニューロンはすべて最新のマシンを完全に打ち負かします)。脳は、画像内のオブジェクトの認識、音声データの解析、バックグラウンドノイズの中で個々のスピーカーの選択など、計算が非常に複雑な問題を解決するように設計されているだけです。何万種類ものオブジェクトを分類して処理する方法を学びます。
あなたの脳が本当にうまくいくように設計されている信じられないほど計算量の多いものは、人にとっては「直感的」に見えるものです。それが本当にうまくいくように設計されていないことは、「直感的でない」または難しいように思われます。しかし、強力なオブジェクト認識に必要な生の計算(非常に多くの種類のオブジェクトがあり、その多くは実際にはサブオブジェクトを持ち、複数の分類があり、「ズボン」、「水」、「犬」などの非剛体の形式であるため)必要なものよりもはるかに多く、コンピューターでのみ可能であると考えられていることを達成します。「常識」を使って日常の問題を解決するようなことは、人にとっても同様に些細なことですが、計算は非常に複雑です。
あなたがやりたいことは確かに可能ですが、(かなりの数のしかしがあります)
3D 再構成の場合:
これらの問題はすべて解決できるので、解決したとします。これで、3D 形状に一致させたいオブジェクトから新しい画像が得られたとします。
もちろん、新しい画像に適合する形状の 2D 投影を見つけようとすることもできますが、その検索スペースは膨大です。最初の 3D 再構成のために構築した特徴検出およびマッチング システムを使用して、新しい画像を既存のセットに直接一致させ、その方法でオブジェクトのどこに収まるかを見つける方が、おそらくはるかに簡単で高速です。
したがって、最初の 3D 再構成を作成する問題を解決したら、基本的に 2 番目のステップも完了です。
光合成は、この 2 つのステップの素晴らしい例です。サイトを閲覧し、そこにある参考文献をいくつか見つけてみてください。
最後のステップである強力な物体認識については、探索空間を想像してみてください。強力なオブジェクト認識に必要なのは、認識したいオブジェクトの適切な表現とは別に、既知のオブジェクトの空間を検索する優れた方法と、新しいオブジェクト (オブジェクトの画像) を表現する優れた方法です。この場合)そのスペースに。これは私がほとんど何も知らないことです。
異なる 2D 画像で同じオブジェクトを一致させるには、SIFT 機能があります。しかし、これが 3D にうまく変換されるとは思いません。
あなたが説明しているのはインスタンス認識であることに注意してください。最近のコンピュータは、確かにインスタンス認識の良い仕事をすることができます. たとえば、Google ゴーグルは、ゴールデン ゲート ブリッジやエッフェル塔などのランドマークの認識に非常に優れています。
ただし、コンピューターはカテゴリの認識と分類を行うのが苦手です。あらゆる種類の照明条件などで考えられるすべてのオブジェクトの数十の 2D スナップショットを作成すると、すぐに扱いにくくなります。犬などの特定のオブジェクトが動き回ることができるという事実は、可能性の空間をさらに大きくします. コンピューターはこれでさらに悪化します。
また、生物学的な観点から言えば、私たちの視野は約 1 億ピクセルです。グラフィックス カードは、それだけの量のデータをリアルタイムでレンダリングできるようになり始めたばかりです。それだけの量のデータを理解することは、さらに計算集約的です。
機械を 5 歳児の情報処理能力に到達させることについてよく話されます。しかし、それがどれだけのデータであるかを考えてみましょう。3 つのカラー チャネルと 1 ピクセルあたり 1 バイトの 1 億ピクセル = 300MB/秒。これに 1 秒あたり 30 フレーム、1 年あたり 31,556,926 秒、5 年を掛けると、およそ 1.4 エクサバイト (1.4x10^18) になります。