0

このソフトウェアの動作の良さ (そして速さ) には驚かされます。薄明かりの中、本の表紙の小さな領域に携帯電話のカメラをかざしたところ、Google Shopper がそれを識別するのに数秒しかかかりませんでした。それはほとんど魔法です。誰もがそれがどのように機能するか知っていますか?

4

3 に答える 3

2

Google Shopperが実際にどのように機能するのかわかりません。しかし、次のように機能する可能性があります。

  • 画像を取得してエッジに変換します (エッジ フィルターを使用し、色情報を保持します)。
  • エッジが交差するポイントを見つけて、それらのリストを作成します (色と交差するエッジの角度を含む)。
  • ハイ コントラスト ポイントのペアを選択し、それらの間の距離を測定することにより、回転に依存しないメトリックに変換します。これで本の表紙は、(edgecolor1a,edgecolor1b,edgecolor2a,edgecolor2b,distance) という一連の数値として表されます。
  • 最も注目すべき距離値のペアを選択し、距離を比率化します。
  • このデータをクエリ文字列として Google に送信すると、Google は最も類似したベクトルを見つけます (直接最近傍計算を使用するか、適切にトレーニングされた分類器 (サポート ベクター マシンなど) を使用する可能性があります)。

Google Shopper は全体像を送信することもできます。その時点で、Google はかなり強力なプロセッサを使用して画像処理データを処理することができます。つまり、より高度な前処理を使用することができます (上記の手順を簡単に実行できるように選択しました)。スマートフォンで可能)。

とにかく、一般的な手順は、(1)スケールと回転に不変な機能を抽出する、(2)その機能ベクトルを事前に計算された機能のライブラリに一致させる、である可能性が非常に高いです。

于 2010-09-16T14:50:32.880 に答える
1

いずれにせよ、パターン認識/機械学習の方法は、多くの場合、以下に基づいています。

  1. 数値として記述できる画像から特徴を抽出します。たとえば、エッジ (Rex Kerr が前に説明したように)、色、テクスチャなどを使用します。画像を記述または表現する一連の数値は、「特徴ベクトル」または「記述子」と呼ばれることもあります。画像の「特徴ベクトル」を抽出した後、距離または (非) 類似度関数を使用して画像を比較できます。
  2. 画像からテキストを抽出します。多くの場合、OCR(光学式文字認識)に基づいて、それを行うにはいくつかの方法があります
  3. 最も近い関連製品を見つけるために、機能とテキストを使用してデータベースで検索を実行します。

    また、アルゴリズムは画像上で特定のロゴを見つけることが多いため、画像もサブ画像にカットされる可能性があります。

    私の意見では、画像の特徴はさまざまなパターン分類子 (特徴ベクトルを入力として使用して「クラス」を予測できるアルゴリズム) に送信され、ロゴとその後の製品自体が認識されます。

    このアプローチを使用すると、ローカル、リモート、または混合にすることができます。ローカルの場合、すべての処理はデバイス上で実行され、「特徴ベクトル」と「テキスト」だけがデータベースのあるサーバーに送信されます。リモートの場合、イメージ全体がサーバーに送信されます。混在している場合 (これが最も可能性が高いと思います)、部分的にローカルで実行され、部分的にサーバーで実行されます。

    もう 1 つの興味深いソフトウェアは、スマートフォンで撮影した写真に関連する他の画像を検索するために CBIR (コンテンツ ベースの画像検索) を使用する Google Googles です。これは、Shopper が対処する問題に関連しています。

于 2011-09-08T18:53:51.627 に答える
-1

パターン認識。

于 2010-09-16T13:12:54.880 に答える