7

バックグラウンド:

私は画像セグメンテーションへのボトムアップアプローチに取り組んでおり、最初に画像を小さな領域/スーパーピクセル/スーパーボクセルに分割し、次にいくつかの基準に基づいて隣接する分割された領域を繰り返しマージしたいと考えています。私が試行錯誤してきた基準の 1 つは、2 つの領域の外観がどの程度似ているかを測定することです。領域の外観を定量化するために、強度統計、テクスチャ機能など、いくつかの尺度を使用します。領域について計算したすべての機能を長い特徴ベクトルにまとめます。

質問:

2 つの隣接する過剰にセグメント化された領域 R1 と R2 が与えられた場合、F1 と F2 を対応する特徴ベクトルとします。私の質問は次のとおりです。

-- F1 と F2 の類似性を定量化するための適切な指標は何ですか?

-- メトリクスで類似性を定量化する前に、F1 と F2 を正規化するにはどうすればよいですか? (アルゴリズムを1セットの画像に結び付けたくないため、正規化に教師付きアプローチを使用することは現実的ではありません)

私の頭の中の解決策:

類似度(R1, R2) = dot_product(F1 / ノルム(F1), F2 / ノルム(F2))

つまり、最初に F1 と F2 を単位ベクトルに正規化し、次に 2 つのベクトル間の内積を類似度の尺度として使用します。

それらを正規化し、メトリックと比較するより良い方法があるかどうか疑問に思います。コミュニティが私にいくつかの参考文献を指摘し、私が使用している類似性尺度よりも他のものが優れている理由を書き留めてくれるとうれしいです.

4

3 に答える 3

4

最先端の画像セグメンテーション アルゴリズムは、スーパーピクセルに対する条件付きランダム フィールドを使用します( IMO SLICアルゴリズムが最適なオプションです)。このタイプのアルゴリズムは、隣接するスーパーピクセル間の関係をキャプチャすると同時に、各スーパーピクセルを分類します (通常はSSVMを使用します)。

スーパーピクセル分類では、通常、SIFT記述子、ヒストグラム、または役立つと思われる機能など、それぞれの機能のバッグを収集します。

このプロセスについて説明している論文はたくさんありますが、興味深いものをいくつか紹介します。

しかし、CRF を扱うためのライブラリやソフトウェアは多くありません。あなたが見つけることができる最高のものは、このブログエントリです。

于 2013-06-20T18:03:12.900 に答える
1

領域について計算したすべての特徴を長い特徴ベクトルにまとめます。[...]

F1 と F2 の類似性を定量化するための適切な指標は何ですか? [...]

F1 と F2 を正規化するにはどうすればよいですか?

tl;dr :ここで説明されているように、 TF-IDFの種類のスコアリングを使用します(個別のアプローチ、スライド 18 ~ 35 を参照)。


GIFT (別名 GNU Image-Finding Tool)と呼ばれる (かなり古い) CBIR エンジンがあり、画像間の類似性を計算するためのこのようなアプローチに正確に従います。

GIFT で正確に興味深いのは、テキスト検索権から CBIR への技術を適用することです。これは、ある意味で古典的なアプローチになっています (動画内のオブジェクト マッチングへのテキスト検索アプローチを参照)。

実際には、GIFT は大量のローカルおよびグローバルの色とテクスチャの低レベルの特徴を抽出します。個々の特徴 (たとえば、ヒストグラム内の i 番目の色の量) は視覚的な単語と見なすことができます。

  1. グローバル カラー (HSV カラー ヒストグラム): 166 ビン = 166 ビジュアル ワード
  2. ローカル カラー (入力画像をサブ領域に再帰的に分割することによるカラー ヒストグラム分析): 340 (サブ領域) x 166 (ビン) = 56,440 ビジュアル ワード
  3. グローバル テクスチャ (ガボール ヒストグラム): 3 (スケール) x 4 (向き) x 10 (範囲) = 120 ビジュアル ワード
  4. ローカル テクスチャ (サブ領域のグリッド内のガボール ヒストグラム): 256 (サブ領域) x 120 (ビン) = 30,720 ビジュアル ワード

そのため、どんな入力画像に対しても、GIFT は 87,446 次元の特徴ベクトルを抽出できFますが、特徴は画像に存在する (特定の頻度でF[i]) か存在しない ( F[i] = 0) と見なされることに留意してください。

次に、効率的なクエリのために、最初にすべての画像 (ここではすべての領域) を逆ファイルにインデックス付けします。2 番目のステップ (クエリ時間) では、各領域をクエリ イメージとして自由に使用できます。

クエリ時に、エンジンは従来のTF-IDFスコアリングを使用します。

/* Sum: sum over each visual word i of the query image
 * TFquery(i): term frequency of visual word i in the query image
 * TFcandidate(i): term frequency of visual word i in the candidate image
 * CF(i): collection frequency of visual word i in the indexed database
 */
score(query, candidate) = Sum [ TFquery(i) * TFcandidate(i) * log**2(1/CF(i)) ]

GIFT 以降、内部的にはもう少し複雑です。

  • 各種類の低レベル機能 (サブクエリ 1 = カラー ヒストのみ、サブクエリ 2 = カラー ブロックなど) に個別に焦点を当ててサブクエリを実行し、スコアをマージします。
  • 特定の割合の特徴のみを評価するための特徴プルーニングが含まれます。

GIFT は非常に効率的であるため、適用できる興味深いアイデアを見つけることができると確信しています。もちろん、パフォーマンスの制約がない場合は、転置インデックスの使用を避けることができます。

于 2013-06-21T08:47:25.903 に答える
0

コサイン類似度 (内積) を計算する前に、F1 または F2 から単位ベクトルを作成する必要がないことを指摘したいだけです。これは、F1/norm(F1) が方向比較のために明示的にそれぞれを単位ベクトルにするためです。

ベクトル比較のその他のメトリックには、ユークリッド距離、マンハッタン距離、またはマハラノビス距離が含まれます。最後のものは、あなたのシナリオにはあまり当てはまらないかもしれません。詳しくはウィキペディアを読んでください。

私自身、ユークリッドとコサインのどちらを選択するのが良いかについて何度か議論しました。どちらのメトリックの使用状況も主観的なものであることに注意してください。ユークリッド空間で、2 つの点が揃っているかどうかだけを測定したい場合は、余弦測定が理にかなっています。明示的な距離メトリックが必要な場合は、ユークリッドの方が優れています。

于 2013-06-20T17:26:01.310 に答える