問題タブ [computer-vision]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
opencv - Mathematica によるコンピュータ ビジョン
Mathematica でコンピュータ ビジョンの作業を行っている人はいますか? そのために利用できる外部ライブラリを知りたいです。組み込みの画像処理機能では不十分です。SURF、ステレオ、カメラのキャリブレーション、マルチビュー ジオメトリなどを探しています。
Mathematica で使用するために OpenCV をラップするのはどれほど難しいでしょうか?
image-processing - 顔認識ライブラリ
大学のプロジェクト用の無料の顔認識ライブラリを探しています。私は顔検出を探していません。私は実際の認識を探しています。これは、特定の顔の間の距離を計算する特定の顔またはライブラリを含む画像を見つけることを意味します。
現在、顔の検出にはOpenCVを使用し、認識には大まかなEigenfaceアルゴリズムを使用しています。しかし、自分で書いた Eigenface アルゴリズムよりも優れたパフォーマンスを発揮するものがあるはずだと思いました。パフォーマンスとしての速度について話しているのではなく、単純な Eigenface アプローチよりも優れた結果が得られるライブラリを探しています。
Faintを見てみましたが、ライブラリは自分のアプリケーションではあまり再利用できないようです。
Python、Java、C++、C などのライブラリに満足しています。現時点では、外部の Windows のみのコードに依存しているため、Windows マシンで実行できるのが最善の方法です。
image - 画像から車両のナンバー プレート (ANPR) を認識する方法は?
ユーザーが車の画像をアップロードできる Web サイトを持っています。プライバシー フィルターを配置して、車両のナンバー プレートを検出し、それらをぼかしたいと考えています。
ぼやけは問題ではありませんが、写真内のライセンスを見つけるのに役立つライブラリまたはコンポーネント (オープン ソースを推奨) はありますか?
注意事項;
- 完璧なものは何もなく、このタイプの画像認識は偽陽性と偽陰性を提供することを私は知っています.
- ぼかす領域をユーザーに選択してもらうことができることを感謝します。これも同様に行いますが、問題は具体的にそのデータをプログラムで見つけることです。そのため、「すべての画像を人にチェックしてもらう」などの回答は役に立ちません。
- このソフトウェア方式は、英国では「Automatic Number Plate Recognition」と呼ばれていますが、ライブラリとしての実装は見当たりません。
- .Net が優先されますが、任意の言語が優れています。
algorithm - サイズに関係なく、画像が「同じ」または類似しているかどうかを識別するために使用できるアルゴリズムは何ですか?
「逆画像検索エンジン」であるTinEyeを使用すると、画像をアップロード/リンクできます。クロールした数十億の画像を検索でき、同じ画像であることが判明した画像へのリンクを返します。
ただし、単純なチェックサムやそれに関連するものではありません。多くの場合、指定した元の画像よりも解像度が高い画像と低い画像、およびサイズが大きい画像と小さい画像の両方を見つけることができます。私はしばしば画像を見つけて、可能な限り最高の解像度のバージョンが欲しいので、これはこのサービスの良い使い方です。
それだけでなく、同じ画像セットの画像を見つけてもらいました。画像内の人々の位置は異なりますが、背景はほとんど同じままです。
画像をさまざまなサイズと圧縮率の他の画像と比較し、それらが「同じ」画像またはセットであることを正確に把握できるようにするために、TinEyeはどのようなアルゴリズムを使用できますか?
image-processing - 描画およびペイントロボットのアルゴリズム-ヒントはありますか?
描画およびペイントロボットのアルゴリズム-
こんにちは
画像を分析し、色や不透明度が変化する最小限のベジェパスオブジェクトを使用して、元の画像で人間の目が知覚するものをキャプチャする画像を生成するソフトウェアを作成したいと思います。
最近のTwitterスーパーコンプレッションコンテスト(stackoverflow.com/questions/891643/twitter-image-encoding-challengeを参照)とは異なり、私の目標は、画像に忠実なレプリカを作成することではなく、画像を見てください。
たとえば、元の画像の左上隅に赤い風船が表示されていて、複製の左上隅に赤い風船のように見える場合、複製の風船がまったく同じ位置ではなく、まったく同じサイズや色でもありません。
私が「人間に知覚される」と言うとき、私はこれを非常に限られた意味で意味します。私は画像の意味を分析しようとはしていません。画像が何であるかを知る必要はありません。人間の目が気付くであろう主要な視覚的特徴にのみ興味があります。実際に観察しているものを概念化する能力がないアルゴリズム。
写真の正確さに対する人間の知覚のこの珍しい基準はなぜですか?
このソフトウェアは、人間のアーティストと協力する描画およびペイントロボットを駆動するために使用されます(video.google.com/videosearch?q=mr%20squiggleを参照)。
写真的に完全ではない人間によって作成されたマークを必ずしも間違いであるとして扱うのではなく、アルゴリズムは、キャンバス上にすでにあるものを最終的な画像に組み込むように努める必要があります。
したがって、相対的な明るさ、色相、彩度、サイズ、および位置は、写真的にオリジナルと同一であるよりもはるかに重要です。フィーチャーのトポロジー、色のブロック、グラデーション、凸面および凹面の曲線を維持することは、これらのフィーチャーの正確なサイズの形状と色がより重要になります。
まだ私と一緒に?
私の問題は、「ハンマーを持っていると、すべてが釘のように見える」症候群に少し苦しんでいることです。私には、これを行う方法は、 retrievr (labs.systemone.at/を参照)で使用されるウェーブレット変換(grail.cs.washington.edu/projects/query/を参照)の比較のような遺伝的アルゴリズムを使用することであるように思われます。 retrievr /)適切なソリューションを選択します。
しかし、これを答えと見なす主な理由は、これらが私が知っている手法であるということです。おそらく、今は何もしていない手法を使用した、はるかに洗練されたソリューションがあります。
人間の視覚システムが画像を分析する方法を考慮することは特に興味深いので、おそらく直線、角度、高コントラストの境界線、および同様の色の大きなブロックに特別な注意を払う必要があります。
視覚、画像アルゴリズム、遺伝的アルゴリズム、または同様のプロジェクトについて私が読むべきことについて何か提案はありますか?
ありがとうございました
マット
PS。上記のスペルの一部は、あなたとあなたのスペルチェックに間違って見えるかもしれません。これは、お住まいの国の標準とは異なる可能性のある国際的なスペルのバリエーションです。たとえば、オーストラリアの標準:色とアメリカの標準:色
c# - モバイル用のコーナー検出アルゴリズム
私は携帯電話の画像の角を検出する良いalgorihtmを見つけようとしています。これを行うには複数のアルゴリズムがありますが、メモリとプロセッサが制限された環境でどれがより優れたパフォーマンスを発揮するかはわかりません。
具体的には、携帯電話のカメラを使って撮影した写真から数独グリッドを見つけようとしています。C#を使用していますが、基本的な画像処理機能を備えたライブラリが見つかりませんでした。エッジ検出を行うためにSobelフィルターを実装しました。それが、私が立っているところです。
問題を明確にするために、特定のアルゴリズムまたはライブラリを使用するための提案はありますか?
image-processing - 遠近法で変形した長方形の比率
遠近法によって歪んだ四角形の 2D 画像が与えられた場合:
形がもともと長方形だったことは知っていますが、元の大きさはわかりません。
この画像の角のピクセル座標がわかっている場合、元の比率、つまり長方形の商 (幅/高さ) を計算するにはどうすればよいですか?
(背景: 目標は、長方形のドキュメントの写真を自動的に歪ませることです。エッジ検出はおそらくハフ変換で行われます)
アップデート:
与えられた情報で幅と高さの比率を決定できるかどうかについて、いくつかの議論がありました。たとえば、上に示した四角形に 1:4 の長方形を投影する方法が思いつかないので、それは可能であるに違いないと私の素朴な考えでした。比率は明らかに 1:1 に近いので、数学的に決定する方法があるはずです。しかし、私の直感的な推測を超える証拠はありません。
以下に示す議論をまだ完全には理解していませんが、ここで欠落しているという暗黙の仮定がいくつかあるに違いないと思います。
しかし、何時間も検索した後、ようやく問題に関連するいくつかの論文を見つけました。そこで使用されている数学を理解するのに苦労していますが、これまでのところ成功していません。特に最初の論文では、残念ながらコード例と非常に緻密な数学がなく、私がやりたかったことを正確に説明しているようです。
Zhengyou Zhang、Li-Wei He、「ホワイトボード スキャンと画像処理」 http://research.microsoft.com/en-us/um/people/zhang/papers/tr03-39.pdf p.11
「遠近歪みのため、長方形の画像は四角形に見えます。しかし、空間では長方形であることがわかっているため、カメラの焦点距離と長方形の縦横比の両方を推定できます。」
ROBERT M. HARALICK 「四角形の透視投影からのカメラ パラメータの決定」 http://portal.acm.org/citation.cfm?id=87146
「3D 空間でサイズと位置が不明な長方形の 2D 透視投影を使用して、長方形の平面図に対するカメラのルック アングル パラメータを決定する方法を示します。」
graphics - ハンド ジェスチャ認識の得意な手法
ジェスチャー認識については、多くの研究が行われています。私はこれをハンド ジェスチャ認識のトピックに絞り込むことにしました (つまり、静止した手の位置から、手話認識と同じくらい複雑で動的なものまで)。
ブロブ検出、エッジ検出、関心点の追跡など、リアルタイムで利用できる画像処理技術を考慮します。隠れマルコフ モデルやその他の比較 AI と組み合わせて、リアルタイムのモーション追跡を行うためにどのような技術/アルゴリズムを使用しますか?ジェスチャ認識?
python - セマンティック画像認識の開始
適切な画像を(不適切に)認識する方法は?
写真と画像のモデレートと管理を対象としたgaeを容易にし、有効にし、容易にするために、基本的なPython画像認識、つまり、人間が判断できるまで疑わしい素材を抑制し、そのほとんどを承認するために画像がどのように見えるかという基本的なセマンティック情報を開始します。良いです。10,000を超える画像のテストバッチには1つまたはごくわずかしか含まれていなかったため、誤検知を自然に回避することは適切です。私は以下のリンクをたどることを見つけました、そしてすべてのアドバイス、提案と推薦のために前もってすべてに感謝します。非常に基本的に、モデレートは、デフォルトの決定に応じて、多数の画像と、デフォルトの「ok」またはその逆のボタン「ok」と「Disapprove」ボタンを表示します(デフォルトでは、おそらくすべてを公開し、絶対的なものから不適切な場合はアドホック(人間)の不承認主要部分> リンクテキスト
computer-vision - ダウンヒル シンプレックス法
テンプレート マッチングにダウンヒル シンプレックス法を使用することは可能ですか?オブジェクトのエッジに 40 個のランドマークがあり、これらのランドマークに法線ベクトルのピクセル強度があり、ダウンヒル シンプレックス法を使用してテンプレートをストレッチするとします。各反復の後の反復は、私が取り組んでいるテンプレートオブジェクトと画像にあるピクセルの誤差の平均二乗をチェックしますか?誰もがアイデアを得ましたか?ありがとう