1

私の目標は、携帯電話を持っている人に、大学のキャンパスにある地元のランドマーク (建物またはその他 (ガゼボ、彫像など)) の写真を撮ってもらい、そのランドマークを特定して何を伝えられるようにすることです。です。

たとえば、彼らが歩き回っていると、金属製のドームのある大きな建物が見えます。彼らはそれが何であるかを知りませんが、面白そうなので、写真を撮ると、アプリはそれがバスケットボール センター (およびその他の関連情報) であることを伝えます。

この特定の分野に関する私の限られた知識から、ニューラル ネットワークを使用して特定の場所を認識できるようにプログラムをトレーニングすることを考えるようになりました。その場合は、このオプションのリソースも教えてください。NN に関する私の知識の範囲は、訓練されていれば認識に使用できるということです。:)

OpenCV ライブラリについては知っていますが、C 開発者ではないので、始める前にその道をたどる必要があるかどうかを知りたいです。私は主に Java で働いていますが、手を汚すことに反対しているわけではありません。

ありがとう!

4

3 に答える 3

3

これは、元の質問への回答です。最適なリソースは、O'Reilly の書籍Learning OpenCVです。

Google ブックスで無料で読むことができ、C と OpenCV を使用しています。作業に合わせて python または Java を使用できます。

OpenCV ライブラリには、haar トレーニングと、顔/テキスト認識のトレーニングに関するサンプル プログラムが含まれています。その後、基本的に物事を理解する必要があります。私が偶然見つけたもう 1 つの有用なリソースは、Intel のOpenCVのリファレンス マニュアルです。とても幸運!

于 2011-01-30T02:14:40.443 に答える
2

コンピュータビジョンのタスクとしてこれを行うことは、コンピュータビジョンの経験がほとんどない人にとっては非常に困難です。10年前は完全に未解決の問題でした。しかし、始めるには:

ニューラルネットワーク(または適切には、バックプロパゲーションスタイルのトレーニングを備えたNN)はかなり古い帽子であり、もはや選択の方法ではありません。ランダムフォレストは人気があります。これは主に、非常に柔軟性があり、実装が合理的に簡単であり、他の分類方法よりも平均してパフォーマンスが低下しないためです。Criminisi etal2011が標準的な論文です。http://research.microsoft.com/pubs/155552/decisionForests_MSR_TR_2011_114.pdf

前回(数年前に)文献をチェックしたとき、画像機能の最初の選択肢として2つあるように見えました。SIFTまたはスパースハールウェーブレット。

ランダムフォレストとハールウェーブレットベースのオブジェクト認識システムについては、Criminisi et al 2008(http://research.microsoft.com/pubs/72423/Criminisi_bmvc2008.pdf )をご覧ください。

ファーガスらからの代替アプローチ。2007年(http://cs.nyu.edu/~fergus/papers/fergus_ijcv.pdf)は、ベイジアンネットワークを使用して結合された単純な画像パッチモデルを使用しています。

OpenCVは、おそらく既存のコードを見つけ始めるのに最適な場所です。Matlabは、これらのタスクを適切にサポートしているとも主張しています。

于 2013-03-15T17:50:38.677 に答える
2

2 番目の方法を使用する方がはるかに簡単です。なぜなら、GPS 座標から場所がわかり、自分がどちらを向いているかがわかるためです (ほとんどのモバイル デバイスにはコンパスと加速度計が組み込まれているため)。これは、すでにいくつかの拡張現実ブラウザーで使用されています。Android を使用している場合は、「Layar」を見たいと思うかもしれません...

すべての携帯電話に GPS があるわけではなく、常に最初に GPS をオンにする必要があるため、よりユーザー フレンドリーな方法は写真を使用することです...

まず第一に、建物の最も顕著な構造と特徴を取得する必要があります。OpenCV にはそのためのメソッドがいくつかあります。特徴抽出は、画像処理における大きなトピックです。おそらく、画像のエッジを抽出し、顕著な特徴/ポイントを取得して、これらを所有しているすべての建物の特徴のデータベースと比較する必要があります。

トレーニングにニューラル ネットワークを使用することもできますが、学習プロセスを取得するためにデータを抽出するには、多くの参照画像が必要です。

(他のオブジェクトのデータベース全体と比較するために、電話でこれをすべて行うのではなく、サーバー側の計算を見たいと思うかもしれません)

それが役立つことを願っています...

于 2011-01-30T18:19:24.427 に答える