23

編集: この投稿を通じて十分な評判を得て、より多くのリンクで編集できるようになりました。これにより、私の主張をよりよく理解することができます

アイザックの装丁をしている人は、小さな台座の上に重要なアイテムに出くわすことがよくあります。

目標は、ユーザーがボタンを押すことができるアイテムについて混乱させ、アイテムを「ボックス化」するように指示することです (Windows デスクトップのボックス化を考えてください)。ボックスは、アイテムのグリッド全体と比較するための関心領域 (実際のアイテムと背景環境) を提供します。

理論上のユーザーボックスアイテム ここに画像の説明を入力

項目の理論的なグリッド (これ以上はありません。isaac wiki のバインディングからこれを切り取っただけです) ここに画像の説明を入力

ユーザーがボックス化したアイテムとして識別されるアイテムのグリッド内の位置は、アイテムに関する情報を提供する isaac wiki のバインディングへの適切なリンクに相関する画像上の特定の領域を表します。

グリッドでは、項目は 1 列目、下の行から 3 番目です。以下で試したすべてのことで、これらの2つの画像を使用します


私の目標は、ゲーム「The Binding of Isaac」からアイテムを手動で切り取り、画像をゲーム内のアイテムの表の画像と比較して切り抜いたアイテムを識別し、適切な画像を表示できるプログラムを作成することです。ウィキページ。

これは、私がやりたいことを成し遂げるために膨大な量のライブラリ学習を必要とするという意味で、私の最初の「本当のプロジェクト」です。少し圧倒されました。

グーグルで検索しただけで、いくつかのオプションをいじりました。(私が使用したチュートリアルは、メソッド名と opencv で検索するとすぐに見つかります。私のアカウントは、何らかの理由でリンクの投稿が厳しく制限されています)

ブルートフォースマッチャーの使用:

http://docs.opencv.org/doc/tutorials/features2d/feature_description/feature_description.html

#include <stdio.h>
#include <iostream>
#include "opencv2/core/core.hpp"
#include <opencv2/legacy/legacy.hpp>
#include <opencv2/nonfree/features2d.hpp>
#include "opencv2/highgui/highgui.hpp"

using namespace cv;

void readme();

/** @function main */
int main( int argc, char** argv )
{
  if( argc != 3 )
   { return -1; }

  Mat img_1 = imread( argv[1], CV_LOAD_IMAGE_GRAYSCALE );
  Mat img_2 = imread( argv[2], CV_LOAD_IMAGE_GRAYSCALE );

  if( !img_1.data || !img_2.data )
   { return -1; }

  //-- Step 1: Detect the keypoints using SURF Detector
  int minHessian = 400;

  SurfFeatureDetector detector( minHessian );

  std::vector<KeyPoint> keypoints_1, keypoints_2;

  detector.detect( img_1, keypoints_1 );
  detector.detect( img_2, keypoints_2 );

  //-- Step 2: Calculate descriptors (feature vectors)
  SurfDescriptorExtractor extractor;

  Mat descriptors_1, descriptors_2;

  extractor.compute( img_1, keypoints_1, descriptors_1 );
  extractor.compute( img_2, keypoints_2, descriptors_2 );

  //-- Step 3: Matching descriptor vectors with a brute force matcher
  BruteForceMatcher< L2<float> > matcher;
  std::vector< DMatch > matches;
  matcher.match( descriptors_1, descriptors_2, matches );

  //-- Draw matches
  Mat img_matches;
  drawMatches( img_1, keypoints_1, img_2, keypoints_2, matches, img_matches );

  //-- Show detected matches
  imshow("Matches", img_matches );

  waitKey(0);

  return 0;
  }

 /** @function readme */
 void readme()
 { std::cout << " Usage: ./SURF_descriptor <img1> <img2>" << std::endl; }

ここに画像の説明を入力

あまり役に立たないものになります。flann を使用すると、よりクリーンですが、同様に信頼性の低い結果が得られます。

http://docs.opencv.org/doc/tutorials/features2d/feature_flann_matcher/feature_flann_matcher.html

#include <stdio.h>
#include <iostream>
#include "opencv2/core/core.hpp"
#include <opencv2/legacy/legacy.hpp>
#include <opencv2/nonfree/features2d.hpp>
#include "opencv2/highgui/highgui.hpp"

using namespace cv;

void readme();

/** @function main */
int main( int argc, char** argv )
{
  if( argc != 3 )
  { readme(); return -1; }

  Mat img_1 = imread( argv[1], CV_LOAD_IMAGE_GRAYSCALE );
  Mat img_2 = imread( argv[2], CV_LOAD_IMAGE_GRAYSCALE );

  if( !img_1.data || !img_2.data )
  { std::cout<< " --(!) Error reading images " << std::endl; return -1; }

  //-- Step 1: Detect the keypoints using SURF Detector
  int minHessian = 400;

  SurfFeatureDetector detector( minHessian );

  std::vector<KeyPoint> keypoints_1, keypoints_2;

  detector.detect( img_1, keypoints_1 );
  detector.detect( img_2, keypoints_2 );

  //-- Step 2: Calculate descriptors (feature vectors)
  SurfDescriptorExtractor extractor;

  Mat descriptors_1, descriptors_2;

  extractor.compute( img_1, keypoints_1, descriptors_1 );
  extractor.compute( img_2, keypoints_2, descriptors_2 );

  //-- Step 3: Matching descriptor vectors using FLANN matcher
  FlannBasedMatcher matcher;
  std::vector< DMatch > matches;
  matcher.match( descriptors_1, descriptors_2, matches );

  double max_dist = 0; double min_dist = 100;

  //-- Quick calculation of max and min distances between keypoints
  for( int i = 0; i < descriptors_1.rows; i++ )
  { double dist = matches[i].distance;
    if( dist < min_dist ) min_dist = dist;
    if( dist > max_dist ) max_dist = dist;
  }

  printf("-- Max dist : %f \n", max_dist );
  printf("-- Min dist : %f \n", min_dist );

  //-- Draw only "good" matches (i.e. whose distance is less than 2*min_dist )
  //-- PS.- radiusMatch can also be used here.
  std::vector< DMatch > good_matches;

  for( int i = 0; i < descriptors_1.rows; i++ )
  { if( matches[i].distance < 2*min_dist )
    { good_matches.push_back( matches[i]); }
  }

  //-- Draw only "good" matches
  Mat img_matches;
  drawMatches( img_1, keypoints_1, img_2, keypoints_2,
               good_matches, img_matches, Scalar::all(-1), Scalar::all(-1),
               vector<char>(), DrawMatchesFlags::NOT_DRAW_SINGLE_POINTS );

  //-- Show detected matches
  imshow( "Good Matches", img_matches );

  for( int i = 0; i < good_matches.size(); i++ )
  { printf( "-- Good Match [%d] Keypoint 1: %d  -- Keypoint 2: %d  \n", i, good_matches[i].queryIdx, good_matches[i].trainIdx ); }

  waitKey(0);

  return 0;
 }

 /** @function readme */
 void readme()
 { std::cout << " Usage: ./SURF_FlannMatcher <img1> <img2>" << std::endl; }

ここに画像の説明を入力

テンプレートマッチングは、これまでのところ私の最良の方法です。ただし、6つの方法のうち、0〜4の正しい識別しか取得できません。

http://docs.opencv.org/doc/tutorials/imgproc/histograms/template_matching/template_matching.html

#include "opencv2/highgui/highgui.hpp"
#include "opencv2/imgproc/imgproc.hpp"
#include <iostream>
#include <stdio.h>

using namespace std;
using namespace cv;

/// Global Variables
Mat img; Mat templ; Mat result;
char* image_window = "Source Image";
char* result_window = "Result window";

int match_method;
int max_Trackbar = 5;

/// Function Headers
void MatchingMethod( int, void* );

/** @function main */
int main( int argc, char** argv )
{
  /// Load image and template
  img = imread( argv[1], 1 );
  templ = imread( argv[2], 1 );

  /// Create windows
  namedWindow( image_window, CV_WINDOW_AUTOSIZE );
  namedWindow( result_window, CV_WINDOW_AUTOSIZE );

  /// Create Trackbar
  char* trackbar_label = "Method: \n 0: SQDIFF \n 1: SQDIFF NORMED \n 2: TM CCORR \n 3: TM CCORR NORMED \n 4: TM COEFF \n 5: TM COEFF NORMED";
  createTrackbar( trackbar_label, image_window, &match_method, max_Trackbar, MatchingMethod );

  MatchingMethod( 0, 0 );

  waitKey(0);
  return 0;
}

/**
 * @function MatchingMethod
 * @brief Trackbar callback
 */
void MatchingMethod( int, void* )
{
  /// Source image to display
  Mat img_display;
  img.copyTo( img_display );

  /// Create the result matrix
  int result_cols =  img.cols - templ.cols + 1;
  int result_rows = img.rows - templ.rows + 1;

  result.create( result_cols, result_rows, CV_32FC1 );

  /// Do the Matching and Normalize
  matchTemplate( img, templ, result, match_method );
  normalize( result, result, 0, 1, NORM_MINMAX, -1, Mat() );

  /// Localizing the best match with minMaxLoc
  double minVal; double maxVal; Point minLoc; Point maxLoc;
  Point matchLoc;

  minMaxLoc( result, &minVal, &maxVal, &minLoc, &maxLoc, Mat() );

  /// For SQDIFF and SQDIFF_NORMED, the best matches are lower values. For all the other methods, the higher the better
  if( match_method  == CV_TM_SQDIFF || match_method == CV_TM_SQDIFF_NORMED )
    { matchLoc = minLoc; }
  else
    { matchLoc = maxLoc; }

  /// Show me what you got
  rectangle( img_display, matchLoc, Point( matchLoc.x + templ.cols , matchLoc.y + templ.rows ), Scalar::all(0), 2, 8, 0 );
  rectangle( result, matchLoc, Point( matchLoc.x + templ.cols , matchLoc.y + templ.rows ), Scalar::all(0), 2, 8, 0 );

  imshow( image_window, img_display );
  imshow( result_window, result );

  return;
}

http://imgur.com/pIRBPQM,h0wkqer,1JG0QY0,haLJzRF,CmrlTeL,DZuW73V#3

6 つのうち、不合格、合格、不合格、合格、合格、合格

しかし、これは一種の最良の結果でした。次に試したアイテムは

ここに画像の説明を入力失敗、失敗、失敗、失敗、失敗、失敗という結果になりました

項目ごとに、これらすべての方法には、うまく機能するものもあれば、ひどく機能するものもあります。

だから私は尋ねます:テンプレートマッチングは私の最善の策ですか、それとも私の聖杯になるとは考えていない方法はありますか?

ユーザーにクロップを手動で作成してもらうにはどうすればよいですか? これに関するOpencvのドキュメントは本当に悪く、オンラインで見つけた例は非常に古いcppまたはストレートCです.

助けてくれてありがとう。このベンチャーは、これまでのところ興味深い経験でした。すべてがどのようにうまくいっているかをよりよく描写するために、すべてのリンクを削除する必要がありましたが、サイトは、そうでない場合でも 10 個を超えるリンクを投稿していると言っています。


ゲーム全体のアイテムのいくつかの例:

岩は珍しいアイテムであり、画面の「どこにでも」ある数少ないアイテムの 1 つです。岩のようなアイテムは、ユーザーによるアイテムのトリミングがアイテムを分離するための最良の方法である理由です。

ここに画像の説明を入力

ここに画像の説明を入力

ボス戦後のアイテムで、どこにでもたくさんの物があり、真ん中が透明です。これが正しく機能するのが難しいものの1つであると思います

ここに画像の説明を入力

ここに画像の説明を入力

珍しい部屋。シンプルな背景。アイテムの透明性はありません。

ここに画像の説明を入力

ここに画像の説明を入力

ここに 2 つのテーブルがあります。ゲーム内のすべてのアイテムは.. 最終的には 1 つの画像にしますが、今のところは isaac wiki から直接取得したものです。

ここに画像の説明を入力

ここに画像の説明を入力

4

2 に答える 2

2

私自身のテンプレート マッチングの問題を解決しようとしているときにあなたの質問に出くわしました。今、私自身の経験に基づいてあなたの最善の策と思われるものを共有するために戻ってきました. あなたはおそらくこれを長い間放棄してきたでしょうが、いつか他の誰かが同じような靴を履いているかもしれません.

あなたが共有したアイテムはどれも真っ直ぐな長方形ではありません.opencvのテンプレートマッチングはマスクでは機能しないため、参照画像を少なくともいくつかの異なる背景と比較する必要があります(アイテムは言うまでもありません)異なる背景のさまざまな場所にあるため、テンプレートの一致がさらに悪化します)。参照画像が見つかるすべての状況の切り抜きを収集できない限り
、常に背景ピクセルを比較し、一致を混乱させます。血などのデカールがアイテムの周囲の背景にさらなる変化をもたらす場合、テンプレート マッチングはおそらく良い結果をもたらさないでしょう。

したがって、私があなただった場合に試す2つのことは、いくつかの詳細に依存しています。

  1. 可能であれば、アイテムが見つかったすべての状況の参照テンプレートを切り取って (これは適切な時期ではありません)、ユーザーが指定した領域をすべてのアイテムのすべてのテンプレートと比較します。これらの比較から最良の結果を得ると、運が良ければ正しい一致が得られます。
  2. あなたが共有したスクリーンショットの例には、背景に暗い/黒い線がないため、すべての項目の輪郭が目立ちます. これがゲーム全体で一貫している場合、ユーザーが指定した領域内のエッジを見つけて、外側の輪郭を検出できます。事前に、各参照項目の外側の輪郭を処理し、それらの輪郭を保存しておく必要があります。次に、ユーザーのトリミングの輪郭をデータベースの各輪郭と比較し、最も一致するものを答えとして使用できます。

スクリーンショットでゲームが適切に表現されているかどうかに応じて、どちらでもうまくいくと確信しています.

注:輪郭マッチングは、テンプレート マッチングよりもはるかに高速です。リアルタイムで実行するのに十分な速さで、おそらくユーザーが何かを切り抜く必要がありません。

于 2014-12-19T05:56:23.650 に答える
2

ここで重要なことの 1 つは、テーブル内のすべてのアイテムの純粋なイメージを持っていることです。背景の色を知っていて、画像の残りの部分からアイテムを切り離すことができます。たとえば、画像自体を表す行列に加えて、同じサイズの 1 と 0 の行列を格納できます。ここで、1 は画像領域に対応し、0 は背景に対応します。このマトリックスを「マスク」と呼び、アイテムの純粋なイメージを「パターン」と呼びましょう。

画像を比較するには、画像とパターンを一致させる方法と、パターンと画像を一致させる方法の 2 つがあります。あなたが説明したのは、画像をパターンと一致させることです-トリミングされた画像があり、同様のパターンを見つけたいと考えています。代わりに、 image で pattern を検索することを考えてください。

match()最初に、同じサイズのパターン、マスク、画像を取り、マスクの下のパターンの領域が画像 (疑似コード) とまったく同じかどうかをチェックする関数を定義しましょう。

def match(pattern, mask, image):
    for x = 0 to pattern.width:
        for y = 0 to pattern.height: 
           if mask[x, y] == 1 and              # if in pattern this pixel is not part of background
              pattern[x, y] != image[x, y]:    # and pixels on pattern and image differ
               return False  
    return True

ただし、模様とトリミングした画像のサイズは異なる場合があります。このための標準的な解決策 (たとえば、カスケード分類器で使用される) は、スライディング ウィンドウを使用することです。パターン「ウィンドウ」を画像全体に移動し、パターンが選択した領域と一致するかどうかを確認します。これは、OpenCV での画像検出の仕組みとほとんど同じです。

もちろん、このソリューションはあまり堅牢ではありません。トリミング、サイズ変更、またはその他の画像変換によって一部のピクセルが変更される可能性があり、この場合、メソッドmatch()は常に false を返します。これを克服するには、ブール値の答えの代わりに、イメージとパターンの間の距離を使用できます。この場合、関数match()は、たとえば 0 と 1 の間の類似度の値を返す必要があります。ここで、1 は「まったく同じ」を表し、0 は「完全に異なる」を表します。次に、類似度のしきい値を設定するか (たとえば、画像はパターンと少なくとも 85% 類似している必要があります)、または類似度が最も高いパターンを選択します。

ゲーム内のアイテムは人工的なイメージであり、バリエーションが非常に少ないため、このアプローチで十分です。ただし、より複雑なケースでは、マスクの下のピクセル以外の機能が必要になります。私のコメントで既に示唆したように、Eigenfaces、Haar のような機能を使用したカスケード分類器、さらには Active Appearance Models などのメソッドは、これらのタスクに対してより効率的である可能性があります。SURFに関しては、私が知る限り、オブジェクトの角度やサイズが変化するタスクには適していますが、さまざまな背景やそのようなものには適していません.

于 2013-02-07T13:35:09.170 に答える