9

描画およびペイントロボットのアルゴリズム-

こんにちは

画像を分析し、色や不透明度が変化する最小限のベジェパスオブジェクトを使用して、元の画像で人間の目が知覚するものをキャプチャする画像を生成するソフトウェアを作成したいと思います。

最近のTwitterスーパーコンプレッションコンテストstackoverflow.com/questions/891643/twitter-image-encoding-challengeを参照とは異なり、私の目標は、画像に忠実なレプリカを作成することではなく、画像を見てください。

たとえば、元の画像の左上隅に赤い風船が表示されていて、複製の左上隅に赤い風船のように見える場合、複製の風船がまったく同じ位置ではなく、まったく同じサイズや色でもありません。

私が「人間に知覚される」と言うとき、私はこれを非常に限られた意味で意味します。私は画像の意味を分析しようとはしていません。画像が何であるかを知る必要はありません。人間の目が気付くであろう主要な視覚的特徴にのみ興味があります。実際に観察しているものを概念化する能力がないアルゴリズム。

写真の正確さに対する人間の知覚のこの珍しい基準はなぜですか?

このソフトウェアは、人間のアーティストと協力する描画およびペイントロボットを駆動するために使用されますvideo.google.com/videosearch?q=mr%20squiggleを参照

写真的に完全ではない人間によって作成されたマークを必ずしも間違いであるとして扱うのではなく、アルゴリズムは、キャンバス上にすでにあるものを最終的な画像に組み込むように努める必要があります。

したがって、相対的な明るさ、色相、彩度、サイズ、および位置は、写真的にオリジナルと同一であるよりもはるかに重要です。フィーチャーのトポロジー、色のブロック、グラデーション、凸面および凹面の曲線を維持することは、これらのフィーチャーの正確なサイズの形状と色がより重要になります。

まだ私と一緒に?

私の問題は、「ハンマーを持っていると、すべてが釘のように見える」症候群に少し苦しんでいることです。私には、これを行う方法は、 retrievr (labs.systemone.at/を参照使用されるウェーブレット変換grail.cs.washington.edu/projects/query/を参照)の比較のような遺伝的アルゴリズムを使用することであるように思われます。 retrievr /適切なソリューションを選択します。

しかし、これを答えと見なす主な理由は、これらが私が知っている手法であるということです。おそらく、今は何もしていない手法を使用した、はるかに洗練されたソリューションがあります。

人間の視覚システムが画像を分析する方法を考慮することは特に興味深いので、おそらく直線、角度、高コントラストの境界線、および同様の色の大きなブロックに特別な注意を払う必要があります。

視覚、画像アルゴリズム、遺伝的アルゴリズム、または同様のプロジェクトについて私が読むべきことについて何か提案はありますか?

ありがとうございました

マット

PS。上記のスペルの一部は、あなたとあなたのスペルチェックに間違って見えるかもしれません。これは、お住まいの国の標準とは異なる可能性のある国際的なスペルのバリエーションです。たとえば、オーストラリアの標準:色とアメリカの標準:色

4

5 に答える 5

3

画像の顕著性マップを計算するアルゴリズムとして実装できるモデルがあり、画像のどの部分が人間から最も注目されるかを判断します。

このモデルはittikochモデルと呼ばれます。ここで
開始 論文を見つけることができます。 その他のリソースとc++ソースコードはここにあります。

于 2009-07-14T16:39:20.267 に答える
3

私はあなたの質問に直接答えることはできませんが、あなたは本当にアーティスト/プログラマー(Lisp)ハロルドコーエンの絵画機械アーロンを見てみるべきです。

于 2009-07-06T17:06:52.960 に答える
1

それはかなり大きな仕事です。画像のベクトル化(正式には何と呼ばれているのかわからない)に興味があるかもしれません。これは、ラスタライズされた画像(カメラで撮った写真など)を取り込み、優れたアルゴリズムは非常に高品質の(読み取り:複雑な)ラインセットを出力することが多いため、非常に役立つ簡略化アルゴリズムにも関心があります。

于 2009-07-06T04:06:22.880 に答える
1

残念ながら、私は自分の図書館の隣にいません。あるいは、知覚心理学に関する本を何冊か勧めることができます。

最初に考慮しなければならないのは、人間の目の生理機能です。画像やシーンを調べるとき、目が急速に動き回るので、一度にキャプチャするのはごくわずかです。私たちの心は、さまざまな部分を一緒につなぎ合わせて、全体を形成しようとします。

眼球がダーツを回るときの経路のアルゴリズムを見つけることから始めることができます。おそらくそれはコントラストに惹かれていますか?

次は、状況に応じて目が「露出」を調整することです。シーン全体の多重露光ではなく、それぞれが独自にバランスを取りながら周囲に溶け込んで高ダイナミックレンジを形成する多くの小さな画像によって一緒にpeicedされた場合、それらの高ダイナミックレンジ画像のようになります。

さて、猿の脳には、視野の左上に対角線があると点灯する単一のニューロンがあるという発見がありました。同様のニューロンは、そのサルの視野のさまざまな領域の垂直線と水平線に見られます。「対角性」は、そのニューロンが発火する頻度を決定します。

他のニューロンが発見され、赤みやテクスチャーなどの他の性質にマッピングされる可能性があると推測する人もいるかもしれません。

私が今までにできるコンピュータプログラムを見たことがない、人間ができることがあります。これは「クロージャー」と呼ばれるもので、人間が見ているものについての情報を入力することができますが、実際には画像には存在しません。例:

          *






*                    *

それは三角形ですか?事前に知っていれば、点をつなぐプログラムを作ることができるでしょう。しかし、それが単なるドットの場合はどうでしょうか?どうやって知ることができますか?私はそれを扱う本当に賢い方法がない限り、これを試みませんでした。

あなたが使用できるかもしれない人間の知覚については他にも多くの事実があります。幸運を祈ります、あなたは簡単な仕事を選んでいません。

于 2009-07-06T06:39:15.300 に答える
0

この巨大な仕事であなたを助けることができるのは人間の関与だと思います。私はデータを意味します。多くの人がランダムな点(前の投稿のように)を見つめて座って、正しく見えるようにそれらを接続することができるように。そのデータを利用できます。

于 2009-11-30T02:09:29.300 に答える