1

私は最近、コースラで機械学習コースを受講し、まともなスコアでコースに合格しました。コース中はKNN、ロジスティック回帰、NNなどのアルゴリズムを使用しましたが、1つの課題は、数字を識別するための学習アルゴリズムを作成することでした。コースはPhotoOCRのケーススタディで終わり、本当にワクワクしましたが、コースで教えた基本的なアルゴリズムをこの大きな問題に適用するのは難しいと感じました。PhotoOCRのアルゴリズムを誰かに提案してもらえますか?

4

1 に答える 1

3

画像認識の問題は、変化に非常に敏感であるということです。彼らの平均的な人間の脳は、画像から特定の特徴を抽出することができ、特定の画像操作(スキュー、回転など)が適用されている場合でも、特定の画像を識別できます。

そうは言っても、私の知る限り、Artifical Neural Netwoksが最も広く使用されています(通常、1つか2つの隠れたレイヤーを投げることも役立ちます)。私が聞いたもう1つのテクニックは、Wisard(またはWizard)ですが、それについては何も見つかりません。この手法は基本的に画像をセクションに分割し、画像セグメントを知識ベースにあるものと比較するときに類似性のパーセンテージを取得します。

そうは言っても、ニューラルネットワークに加えてOpenCVなどのまともなグラフィック操作ライブラリに固執する場合(これには、JavaやC#を含むさまざまなラッパーがあります)。目的は、不要な情報を可能な限り排除することです。たとえば、特定のケースでは、画像をグレースケールまたは厳密に白黒のピクセルに縮小すると役立ちます。

于 2012-08-31T09:23:08.820 に答える