3

画像内で最も支配的なオブジェクトと見なされるものの基本的な形状、色、および寸法を決定できる画像分析ソフトウェアを作成しました。

また、アルゴリズムが選択するオブジェクトのデータベースも作成しました。

Item | Shape | Colors | Width range | Height range

Box | rectangle | brown, black, white | 20-50 cm | 10-30 cm
Basketball | circle | orange | 20-25cm | 20-25 cm
Backpack | rectangle | black | 40-50 cm | 20-30 cm
.
.
.
etc.

たとえば、システムが幅 42cm、高さ 26cm の黒い長方形を検出した場合です。この場合、「箱」と「バックパック」の両方が正解となります。75% の確率でバックパック、25% の確率で箱 (おそらく、箱が 3黒しかなかったバックパックとは対照的に、さまざまな色と幅広いサイズのバリエーションがあります)?

その他アドバイスも大歓迎です。私は画像認識について独学しなければならないので、画像から引き出そうとする必要がある他のこと、またはデータベースについて別の方法で行う必要がある場合は、それらのコメントも大歓迎です!

4

3 に答える 3

3

なぜそれが機能するのかについての正当化がほとんどない、かなり高レベルの説明で申し訳ありませんが、その質問に答える本を簡単に埋めることができます。


さらに、ボックスとバックパックの許容サイズの範囲を記録するために、確率分布を定義する必要があります。ほとんどの場合、(2D) 正規分布を使用して、範囲の代わりに平均と変動を記録します。適切な確率分布を使用して、形状、色などの変数に対して同じことを行います。

次に、次のような数百のデータ ポイントを持つ 2 つのデータ セットを生成します。

p_1 = (shape=rectangle, color=black, width=12, height=34)
p_2 = (shape=circle, color=red, width=34, height=11)
...

セットの 1 つについて、説明に最もよく一致するオブジェクトとして手動で分類します。それが検証セットになります。

他のデータセットを取得し、そのデータを使用してフィッシャーの線形判別式のような分類アルゴリズムをトレーニングします。Tクラス (オブジェクトを表すデータ ポイントのグループ) 間の「距離」を最大化し、同じグループに属するポイント間の「距離」を最小化する変換を取得します。

プログラムがプロパティを持つ新しいオブジェクトを検出したとき

o = (shape=rectangle, color=black, width=42, height=26)

フィッシャーの LD から得られた変換を適用し、分類したデータ ポイントの変換に対する相関 (スカラー ベクトル積) を測定し(T*o)*(T*p_backpack)'ます(T*o)*(T*p_box)'

于 2011-05-01T22:53:30.540 に答える
2

AI を検討している場合は、http://pybrain.org/をご覧ください。

これは非常に高レベルの Python AI ライブラリです。パターン認識(ニューラルネットワークを使用)に使用して、幸運に恵まれました。遊ぶのは簡単で、さまざまなアプローチをすばやく試すことができます。

于 2011-05-01T23:45:25.247 に答える
1

ユーザー入力によって入力された AI アルゴリズムを試してみます。

于 2011-05-01T23:35:13.930 に答える