python - ニューラルネットワークは画面を認識し、限られた一連のアクションを再現できますか?

Question

ニューラルネットワークはあらゆる機能を複製できることを学びました。

通常、ニューラルネットワークには一連の記述子が入力ニューロンに供給され、出力ニューロンで特定のスコアが与えられます。ニューラルネットワークに、画面からの特定の動作を認識させたいと考えています。画面上のオブジェクトは既に前処理されており、はっきりと見えるため、認識は問題になりません。

ニューラルネットワークを使用して、画面のピクセル化された画像を認識し、それに基づいて決定を下すことは可能ですか? もちろん、トレーニングデータの量は膨大になります。オンライン教師あり学習によって ANN を教える方法はありますか?

編集：コメンターがプログラミングの問題が一般的すぎると言ったため：これを最初にPythonで実装して、機能するかどうかを確認したいと思います。Python でこのオンライン学習を行うことができるリソースを誰かが教えてくれたら、私は感謝します。

score 1 · Accepted Answer

私は提案します

http://www.neuroforge.co.uk/index.php/getting-started-with-python-a-opencv http://docs.opencv.org/doc/tutorials/ml/table_of_content_ml/table_of_content_ml.html http: //blog.damiles.com/2008/11/the-basic-patter-recognition-and-classification-with-opencv/ https://github.com/bytefish/machinelearning-opencv

openCV は基本的には画像処理ライブラリですが、ほとんどすべてのタスクに使用できる素晴らしいヘルパークラスもいくつかあります。その機械学習モジュールは非常に使いやすく、ソースを参照して各機能の説明と背景理論を確認できます。

次のような純粋な python 機械学習ライブラリを使用することもできます: http://scikit-learn.org/stable/

ただし、画面からのデータを ANN や SVM、または選択した ML アルゴリズムにフィードする前に (ピクセル単位だと思いますか?)、データに対して「特徴抽出」を実行する必要があります。(画面上のオブジェクト)

特徴抽出は、画面上で同じデータを表すように考えることができますが、数値が少ないため、ANN に与える数値が少なくなります。特定のシナリオに適した組み合わせを見つける前に、さまざまな機能を試す必要があります。サンプルは次のようになります。

[x1,y1,x2,y2...,列]

これは基本的に、オブジェクトが存在する領域を表すエッジポイントのリストです。一種の ROI (関心領域) であり、エッジ検出、色検出を実行し、その他の関連する特性も抽出します。重要なことは、すべてのオブジェクト、それらの形状/色の情報が、検出されたオブジェクトごとに 1 つずつ、多数のこれらのリストによって表されることです。

これは、ニューラルネットワークへの入力として提供できるデータです。もちろん、システムをトレーニング/テストする前に、特定の問題ステートメントに応じて、いくつかの意味のある出力パラメーターを定義する必要があります。

お役に立てれば。

score 0 · Accepted Answer

これは完全に正しくありません。

3 層のフィードフォワード MLP は、理論的にはすべての CONTINUOUS 関数を複製できます。

不連続がある場合は、4 番目のレイヤーが必要です。

ピクセル化された画面などを扱っているため、おそらく 4 番目のレイヤーを検討する必要があります。

最後に、円形などを見ている場合は、放射基底関数 (RBF) ネットワークよりも適している可能性があります。

python - ニューラル ネットワークは画面を認識し、限られた一連のアクションを再現できますか?

2 に答える 2

Related

Reference

python - ニューラルネットワークは画面を認識し、限られた一連のアクションを再現できますか?