0

グーグルゴーグルとグーグルの「画像検索」を使用しているときに興味があったので、この質問をしました。

Googleに検索用の画像を提供しようとすると、いくつかの結果が表示される可能性があります。同一の画像が最適ですが(もちろん)、さまざまなオブジェクトの写真を撮るのは難しい場合があります。

Google Goggleには、テキスト認識と画像マッチング認識を使用することで、少し回避策があると思います。テキスト認識で「SONY」などのテキストが見つかった場合は、処理が簡単になる可能性があります。ブランドのイメージが検出されれば、物事もよりシンプルになるはずです。同じことが、エッフェル塔などの他の有名なブランドや有名なランドマークにも当てはまります。テキストとブランドのイメージがあると、物事を簡単に認識できるようになります。

しかし、たとえば、もっとわかりにくいものを検索する場合(ここではより適切な表現が必要です)、このラーメンの画像を見てください。

拉麺

この画像をGoogleに入力すると、同じような色、場合によっては同じような形のさまざまな他の画像の画像が表示されます。ちなみに、結果には他のラーメン画像もありますが、ラーメン画像を入力しているので、これらのラーメン画像が上にある方がいいと思います。ここでのコンテキストはラーメンです。

それで、ここに私の質問があります、画像のコンテキストを理解できるようなソフトウェアを作成することは可能でしょうか?ソフトウェアでコンテキストをどのように表現できますか?

4

1 に答える 1

1

男、あなたはただ多くの人々がコンピュータビジョンに取り組んでいるまさにその理由を指摘します。

オブジェクトを数学的に記述するのは非常に簡単です。色、形、密度、。。。それらはすべて簡単に計算できます。

しかし、「現実の物体」について話すとき、コンピュータビジョンは非常に複雑になります。

角度、光度、および単に一貫性がないため、オブジェクトを正確に検出することはほとんど不可能です。

コンピュータビジョンに取り組むときは、常に自分自身に問いかける必要があります。私が認識したいオブジェクトがユニークである理由は何ですか。

他のオブジェクトが所有していない記述子を使用できますか?

これらのラーメンについて自問してみてください。ラーメンを検出したいだけだとしましょう。スープの色が変わったらどうしますか?肉が大きい場合はどうなりますか?

詳細を知りたい場合は、パターン認識とパターンマッチングについて読む必要があります。

そして、この種の問題の解決策を一般的な方法で見つけることができれば、私が思うノーベル賞に登録することができます:)

顔認識やOCRなど、最近ではよく知られているものもあります。しかし、それらはしばしば非常に特殊化されており、1つのドメインにのみ適用されます。考えてみてください。ラーメンを与えると、Googleの画像検索アルゴリズムでさえもひどいものになります。彼は自分が何を探しているのかを正確に知っているので、数独ではかなり効率的です。すべての違いは、アルゴリズムを支援するための仮定のリストを提供するトレーニングで発生します。

だから基本的にあなたはそれを手に入れました。多くの仮定に基づいて1つのものを検出するのに優れた、非常に優れたコンピュータビジョンシステムを作成するか、「大丈夫」ですが非常に一般的なシステムを作成します:)。選択は主にアプリケーションによって異なります

于 2012-10-12T20:35:53.630 に答える