machine-learning - SIFT を使用した画像データベースの検索

Question

SIFT アルゴリズムについていくつかの質問がされていますが、それらはすべて 2 つの画像の単純な比較に焦点を当てているようです。2 つの画像がどの程度似ているかを判断する代わりに、SIFT を使用して、何千もの画像のコレクションから最も一致する画像を見つけることが実用的でしょうか? つまり、SIFT はスケーラブルですか?

たとえば、SIFT を使用して画像のバッチのキーポイントを生成し、そのキーポイントをデータベースに保存してから、「クエリ」画像用に生成されたキーポイントまでのユークリッド距離が最も短いものを見つけることは実用的でしょうか?

ユークリッド距離を計算するとき、キーポイントの x、y、スケール、方向の部分を無視して、ディスクリプタだけを見ますか?

score 8 · Accepted Answer

いくつかのアプローチがあります。

一般的なアプローチの 1 つは、一致する記述子の数のみに基づいてマッチングを行う、いわゆるバッグオブワード表現です。したがって、(x、y、スケール、および方向) で構成される位置部分を無視し、記述子のみを調べます。

大規模なデータベースの効率的なクエリでは、局所性に依存するハッシュなどの近似メソッドを使用できます

他の方法には、語彙ツリーまたは他のデータ構造が含まれる場合があります。

位置情報も考慮した効率的な方法については、ピラミッドマッチカーネルをご覧ください。

machine-learning - SIFT を使用した画像データベースの検索

1 に答える 1

Related

Reference