4

コンピューター ビジョンの研究について、いくつか抽象的な質問をしたいと思います。Web を検索したり論文を読んだりしても、これらの質問に答えることができませんでした。

  1. コンピュータ ビジョン アルゴリズムが正しいかどうかは、どうすればわかりますか?
  2. コンピュータ ビジョンのコンテキストで「正しい」をどのように定義するのでしょうか?
  3. 正式な証明は、コンピューター ビジョン アルゴリズムの正しさを理解する上で役割を果たしますか?

ちょっとした背景: 私はコンピューター サイエンスの博士号を取得しようとしています。高速な並列アルゴリズムを設計し、これらのアルゴリズムの正確性を証明することを楽しんでいます。また、いくつかのクラス プロジェクトで OpenCV を使用しましたが、コンピューター ビジョンに関する正式なトレーニングはあまり受けていません。

私は、コンピューター ビジョン用のより高速でスケーラブルなアルゴリズム (高速画像セグメンテーションなど) の設計に取り組んでいる潜在的な論文アドバイザーからアプローチを受けました。コンピュータ ビジョンの問題を解決する際の一般的な方法を理解しようとしています。

4

4 に答える 4

3

あなたはそれらを証明していないだけです。

多くの場合不可能な正式な証明の代わりに、一連のテストケースでアルゴリズムをテストし、出力を既知のアルゴリズムまたは正解と比較できます (たとえば、テキストを認識したときに、一連の画像を生成できます)。テキストの内容を知っている場合)。

于 2012-04-06T23:26:50.277 に答える
2

実際には、コンピューター ビジョンは経験科学に似ています。データを収集し、データのいくつかの側面を説明できる単純な仮説を考え、それらの仮説をテストします。通常、顔認識などの高レベルの CV タスクでは「正しい」という明確な定義がないため、正しいことを証明することはできません。

ただし、低レベルのアルゴリズムは別の問題です。通常、ここで「正しい」という明確で数学的な定義があります。たとえば、メジアン フィルターやモルフォロジー演算を既知のアルゴリズムよりも効率的に計算できるアルゴリズムや、並列処理を改善できるアルゴリズムを発明した場合は、他のアルゴリズムと同様に、もちろんそれが正しいことを証明する必要があります。

形式化できるコンピューター ビジョン アルゴリズムには、特定の要件があることも一般的です。また、信号とノイズの数学的モデルを作成し、可能な限り最高の信号対ノイズ比を持つフィルターを設計することも可能です (IIRC のウィーナー フィルターまたはキャニー エッジ検出器はそのように設計されています)。

多くの画像処理/コンピューター ビジョン アルゴリズムには、ある種の「収束するまで繰り返す」ループがあります (たとえば、スネークまたはナビエストークス修復およびその他の PDE ベースの方法)。少なくとも、アルゴリズムが任意の入力に対して収束することを証明しようとします。

于 2012-04-09T08:56:03.553 に答える
2

これは私の個人的な意見ですので、その価値を考慮してください。

現在、ほとんどのコンピューター ビジョン手法の正しさを証明することはできません。現在の方法のほとんどは、十分な「結果」が得られるまで材料を投入する「レシピ」のようなものだと考えています。ブラウニーケーキが正しいことを証明できますか?

これは、機械学習がどのように進化したかという点で少し似ています。最初、人々はニューラル ネットワークを作成しましたが、多かれ少なかれ機能するのは単なる大きな「スープ」でした。うまくいくこともあれば、うまくいかないこともあり、その理由は誰にもわかりませんでした。その後、統計的学習 (特に Vapnik を介して) が開始され、いくつかの実際の数学的バックアップが行われました。特定の損失関数を最小化する一意の超平面があることを証明できます。PCA は、特定の行列に最も近い固定ランクの行列を提供します (私が信じているフロベニウス ノルムを考慮して)、など...

現在、コンピューター ビジョンで「正しい」ものがまだいくつかありますが、それらはかなり限られています。私の頭に浮かぶのはウェーブレットです。これらは関数の直交基底における最もまばらな表現です。(つまり、最小限のエラーで画像の近似を表現する最も圧縮された方法)

于 2012-04-09T06:51:02.363 に答える
1

コンピュータ ビジョン アルゴリズムは、証明できる定理とは異なり、通常、画像データを人間にとってより理解しやすい用語に解釈しようとします。顔認識、モーション検出、ビデオ監視などのように。正確な正確さは、画像のサイズによって結果を簡単に見つけることができる画像圧縮アルゴリズムの場合のように計算できません。コンピュータ ビジョンの方法 (特に分類問題) で結果を表示するために使用される最も一般的な方法は、精度対再現率、精度対偽陽性のグラフです。これらは、さまざまなサイトで利用可能な標準データベースで測定されます。通常、正しい検出のためにパラメーターを厳しく設定すると、より多くの誤検知が生成されます。典型的な方法は、' の要件に従ってグラフからポイントを選択することです

于 2012-04-09T06:34:17.627 に答える