領域について計算したすべての特徴を長い特徴ベクトルにまとめます。[...]
F1 と F2 の類似性を定量化するための適切な指標は何ですか? [...]
F1 と F2 を正規化するにはどうすればよいですか?
tl;dr :ここで説明されているように、 TF-IDFの種類のスコアリングを使用します(個別のアプローチ、スライド 18 ~ 35 を参照)。
GIFT (別名 GNU Image-Finding Tool)と呼ばれる (かなり古い) CBIR エンジンがあり、画像間の類似性を計算するためのこのようなアプローチに正確に従います。
GIFT で正確に興味深いのは、テキスト検索権から CBIR への技術を適用することです。これは、ある意味で古典的なアプローチになっています (動画内のオブジェクト マッチングへのテキスト検索アプローチを参照)。
実際には、GIFT は大量のローカルおよびグローバルの色とテクスチャの低レベルの特徴を抽出します。個々の特徴 (たとえば、ヒストグラム内の i 番目の色の量) は視覚的な単語と見なすことができます。
- グローバル カラー (HSV カラー ヒストグラム): 166 ビン = 166 ビジュアル ワード
- ローカル カラー (入力画像をサブ領域に再帰的に分割することによるカラー ヒストグラム分析): 340 (サブ領域) x 166 (ビン) = 56,440 ビジュアル ワード
- グローバル テクスチャ (ガボール ヒストグラム): 3 (スケール) x 4 (向き) x 10 (範囲) = 120 ビジュアル ワード
- ローカル テクスチャ (サブ領域のグリッド内のガボール ヒストグラム): 256 (サブ領域) x 120 (ビン) = 30,720 ビジュアル ワード
そのため、どんな入力画像に対しても、GIFT は 87,446 次元の特徴ベクトルを抽出できF
ますが、特徴は画像に存在する (特定の頻度でF[i]
) か存在しない ( F[i] = 0
) と見なされることに留意してください。
次に、効率的なクエリのために、最初にすべての画像 (ここではすべての領域) を逆ファイルにインデックス付けします。2 番目のステップ (クエリ時間) では、各領域をクエリ イメージとして自由に使用できます。
クエリ時に、エンジンは従来のTF-IDFスコアリングを使用します。
/* Sum: sum over each visual word i of the query image
* TFquery(i): term frequency of visual word i in the query image
* TFcandidate(i): term frequency of visual word i in the candidate image
* CF(i): collection frequency of visual word i in the indexed database
*/
score(query, candidate) = Sum [ TFquery(i) * TFcandidate(i) * log**2(1/CF(i)) ]
GIFT 以降、内部的にはもう少し複雑です。
- 各種類の低レベル機能 (サブクエリ 1 = カラー ヒストのみ、サブクエリ 2 = カラー ブロックなど) に個別に焦点を当ててサブクエリを実行し、スコアをマージします。
- 特定の割合の特徴のみを評価するための特徴プルーニングが含まれます。
GIFT は非常に効率的であるため、適用できる興味深いアイデアを見つけることができると確信しています。もちろん、パフォーマンスの制約がない場合は、転置インデックスの使用を避けることができます。