36

画像を他の画像のリストと比較し、最大70%の類似性を持つこのリストの画像の選択(Google検索画像など)を返そうとしています。

私はこの投稿でこのコードを取得し、コンテキストに合わせて変更します

# Load the images
img =cv2.imread(MEDIA_ROOT + "/uploads/imagerecognize/armchair.jpg")

# Convert them to grayscale
imgg =cv2.cvtColor(img,cv2.COLOR_BGR2GRAY)

# SURF extraction
surf = cv2.FeatureDetector_create("SURF")
surfDescriptorExtractor = cv2.DescriptorExtractor_create("SURF")
kp = surf.detect(imgg)
kp, descritors = surfDescriptorExtractor.compute(imgg,kp)

# Setting up samples and responses for kNN
samples = np.array(descritors)
responses = np.arange(len(kp),dtype = np.float32)

# kNN training
knn = cv2.KNearest()
knn.train(samples,responses)

modelImages = [MEDIA_ROOT + "/uploads/imagerecognize/1.jpg", MEDIA_ROOT + "/uploads/imagerecognize/2.jpg", MEDIA_ROOT + "/uploads/imagerecognize/3.jpg"]

for modelImage in modelImages:

    # Now loading a template image and searching for similar keypoints
    template = cv2.imread(modelImage)
    templateg= cv2.cvtColor(template,cv2.COLOR_BGR2GRAY)
    keys = surf.detect(templateg)

    keys,desc = surfDescriptorExtractor.compute(templateg, keys)

    for h,des in enumerate(desc):
        des = np.array(des,np.float32).reshape((1,128))

        retval, results, neigh_resp, dists = knn.find_nearest(des,1)
        res,dist =  int(results[0][0]),dists[0][0]


        if dist<0.1: # draw matched keypoints in red color
            color = (0,0,255)

        else:  # draw unmatched in blue color
            #print dist
            color = (255,0,0)

        #Draw matched key points on original image
        x,y = kp[res].pt
        center = (int(x),int(y))
        cv2.circle(img,center,2,color,-1)

        #Draw matched key points on template image
        x,y = keys[h].pt
        center = (int(x),int(y))
        cv2.circle(template,center,2,color,-1)



    cv2.imshow('img',img)
    cv2.imshow('tm',template)
    cv2.waitKey(0)
    cv2.destroyAllWindows()

私の質問は、画像を画像のリストと比較して、類似した画像のみを取得するにはどうすればよいですか?これを行う方法はありますか?

4

4 に答える 4

29

画像間の土工距離(EMD)を確認することをお勧めします。このメトリックは、正規化されたグレースケール画像を別の画像に変換するのがどれほど難しいかを示しますが、カラー画像に一般化することができます。この方法の非常に優れた分析は、次の論文に記載されています。

robotics.stanford.edu/~rubner/papers/rubnerIjcv00.pdf

これは、画像全体とヒストグラムの両方で実行できます(これは画像全体の方法よりも実際に高速です)。どの方法で完全な画像比較が可能かはわかりませんが、ヒストグラム比較にはcv.CalcEMD2関数を使用できます。

唯一の問題は、この方法では類似性のパーセンテージではなく、フィルタリングできる距離が定義されることです。

これが完全に機能するアルゴリズムではないことは知っていますが、それでもそのベースであるため、役立つことを願っています。

編集:

これは、EMDが原理的にどのように機能するかのなりすましです。主なアイデアは、2つの正規化された行列(2つのグレースケール画像をそれらの合計で割ったもの)を持ち、最初の画像から別のピクセルにグレーを移動して2番目の画像を取得する方法を説明するフラックス行列を定義することです(正規化されていないものの場合ですが、より困難です)。

数学的には、フローマトリックスは、実際には古い画像の点(i、j)から新しい画像の点(k、l)への流れを与える4次元テンソルですが、画像を平坦化すると変換できます。正規行列にすると、もう少し読みにくくなります。

このフローマトリックスには3つの制約があります。各項は正であり、各行の合計は宛先ピクセルの同じ値を返し、各列の合計は開始ピクセルの値を返す必要があります。

これを考えると、(i、j)と(k、l)の間の距離について、(i、j)から(k、l)への各フローの積の合計によって与えられる変換のコストを最小化する必要があります。

言葉では少し複雑に見えるので、ここにテストコードがあります。ロジックは正しいですが、scipyソルバーがそれについて不平を言う理由はわかりません(おそらくopenOptまたは同様のものを探す必要があります):

#original data, two 2x2 images, normalized
x = rand(2,2)
x/=sum(x)
y = rand(2,2)
y/=sum(y)

#initial guess of the flux matrix
# just the product of the image x as row for the image y as column
#This is a working flux, but is not an optimal one
F = (y.flatten()*x.flatten().reshape((y.size,-1))).flatten()

#distance matrix, based on euclidean distance
row_x,col_x = meshgrid(range(x.shape[0]),range(x.shape[1]))
row_y,col_y = meshgrid(range(y.shape[0]),range(y.shape[1]))
rows = ((row_x.flatten().reshape((row_x.size,-1)) - row_y.flatten().reshape((-1,row_x.size)))**2)
cols = ((col_x.flatten().reshape((row_x.size,-1)) - col_y.flatten().reshape((-1,row_x.size)))**2)
D = np.sqrt(rows+cols)

D = D.flatten()
x = x.flatten()
y = y.flatten()
#COST=sum(F*D)

#cost function
fun = lambda F: sum(F*D)
jac = lambda F: D
#array of constraint
#the constraint of sum one is implicit given the later constraints
cons  = []
#each row and columns should sum to the value of the start and destination array
cons += [ {'type': 'eq', 'fun': lambda F:  sum(F.reshape((x.size,y.size))[i,:])-x[i]}     for i in range(x.size) ]
cons += [ {'type': 'eq', 'fun': lambda F:  sum(F.reshape((x.size,y.size))[:,i])-y[i]} for i in range(y.size) ]
#the values of F should be positive
bnds = (0, None)*F.size

from scipy.optimize import minimize
res = minimize(fun=fun, x0=F, method='SLSQP', jac=jac, bounds=bnds, constraints=cons)

変数resには最小化の結果が含まれています...しかし、私が言ったように、なぜそれが特異行列について不平を言うのかわかりません。

このアルゴリズムの唯一の問題は、それほど高速ではないため、オンデマンドで実行することはできませんが、データセットの作成に忍耐強く実行し、結果をどこかに保存する必要があります

于 2012-11-20T23:13:00.767 に答える
12

あなたは「コンテンツベースの画像検索」またはCBIRと呼ばれる大規模な問題に着手しています。それは巨大で活発な分野です。完成したアルゴリズムや標準的なアプローチはまだありませんが、成功のレベルが異なる多くの手法があります。

Google画像検索でさえ(まだ)これを行いません-彼らはテキストベースの画像検索を行います-例えば、あなたが検索したテキストのようなページ内のテキストを検索します。(そして、彼らはCBIRの使用に取り組んでいると確信しています。これは、多くの画像処理研究者にとっての聖杯です)

締め切りが厳しい場合、またはこれを完了してすぐに機能させる必要がある場合は...そうです。

これがこのトピックに関するたくさんの論文です:

http://scholar.google.com/scholar?q=content+based+image+retrieval

通常、いくつかのことを行う必要があります。

  1. 特徴を抽出します(ローカルの関心点で、またはグローバルに、あるいは何らかの形で、SIFT、SURF、ヒストグラムなど)
  2. 画像分布のモデルをクラスター化/構築する

これには、機能記述子画像の要点複数インスタンスの学習が含まれる場合があります。等

于 2012-11-22T02:34:45.240 に答える
10

私はPython/Cythonを使用して、おそらく2年前に非常によく似た何かを行うプログラムを作成しました。後で、パフォーマンスを向上させるためにGoに書き直しました。基本的な考え方は、findimagedupesIIRCから来ています。

基本的に、各画像の「指紋」を計算し、これらの指紋を比較して類似の画像と照合します。

指紋は、画像のサイズを160x160に変更し、グレースケールに変換し、ぼかしを追加して正規化し、16x16モノクロにサイズ変更することで生成されます。最後に、256ビットの出力があります。これが指紋です。これは、以下を使用して非常に簡単に実行できますconvert

convert path[0] -sample 160x160! -modulate 100,0 -blur 3x99 \
    -normalize -equalize -sample 16x16 -threshold 50% -monochrome mono:-

[0]inpath[0]は、アニメーションGIFの最初のフレームのみを抽出するために使用されます。そのような画像に興味がない場合は、削除するだけです。)

これを2つの画像に適用すると、2つの(256ビット)指紋が作成fp1されfp2ます。

次に、これら2つの画像の類似度スコアは、これら2つの値をXORし、1に設定されたビットをカウントすることによって計算されます。このビットカウントを行うには、次の回答bitsoncount()の関数を使用できます。

# fp1 and fp2 are stored as lists of 8 (32-bit) integers
score = 0
for n in range(8):
    score += bitsoncount(fp1[n] ^ fp2[n])

score画像がどれだけ似ているかを示す0から256までの数字になります。私のアプリケーションでは、2.56で除算し(0〜100に正規化)、正規化されたスコアが20以下の画像は同じであることがよくあります。

このメソッドを実装して多くの画像を比較する場合は、可能な限りCython(または単純なC)を使用することを強くお勧めします。純粋なPython整数では、XORとビットカウントが非常に遅くなります。

本当に申し訳ありませんが、Pythonコードが見つかりません。現在、私はGoバージョンしか持っていませんが、ここに投稿することはできません(他のコードに緊密に統合されており、Goでの最初の本格的なプログラムだったのでおそらく少し醜いです...)。

GQView/Geeqieには非常に優れた「類似性による検索」機能もあります。そのソースはここにあります。

于 2012-11-22T17:43:33.603 に答える
5

PythonでのEarthMoverのDistance(別名Wasserstein Distance)のより簡単な実装には、Scipyを使用できます。

from keras.preprocessing.image import load_img, img_to_array
from scipy.stats import wasserstein_distance
import numpy as np

def get_histogram(img):
  '''
  Get the histogram of an image. For an 8-bit, grayscale image, the
  histogram will be a 256 unit vector in which the nth value indicates
  the percent of the pixels in the image with the given darkness level.
  The histogram's values sum to 1.
  '''
  h, w = img.shape[:2]
  hist = [0.0] * 256
  for i in range(h):
    for j in range(w):
      hist[img[i, j]] += 1
  return np.array(hist) / (h * w)

a = img_to_array(load_img('a.jpg', grayscale=True))
b = img_to_array(load_img('b.jpg', grayscale=True))
a_hist = get_histogram(a)
b_hist = get_histogram(b)
dist = wasserstein_distance(a_hist, b_hist)
print(dist)
于 2018-03-31T21:18:57.797 に答える