-1

画像からテキストを抽出するプログラムに取り組んでいます。そのためにライブラリを試してみたところ、Tessaract単純Ocropusなプレーンテキスト(単純なフォントの白黒)を画像からテキスト文字列に変換できました。例えば:

画像例1

しかし、複雑な画像からテキストを抽出することはできません。たとえば、この画像から次のように言いましょう。

画像例2

これを達成する方法を知っている人はいますか?複雑な画像からテキストを抽出するために利用できるライブラリはありますか (予測できないさまざまな背景がありますか?私は Python を好みますが、言語はバーではありません。

4

1 に答える 1

3

このすべての単語認識が機械学習アルゴリズムによってどのように機能するかは、対応するテキストが既に解釈された多数の画像が供給されます。与えられたさまざまなフォントや外観の文字を理解することを学習します。

ただし、ロゴは非常に特殊なフォントで作成されます。2 つのロゴが同じものを使用することはほとんどありません。そのため、書かれた内容を認識するための学習データを作成することは、不可能ではないにしても非常に困難です。

これにより、Sprite の商標をあらゆる場所で認識できるようにアルゴリズムをトレーニングすることができます。そのためには、OpenCV を使用して、さまざまな品質のスプライト ロゴ、ストア、ボトルなどのスプライトのロゴの写真でトレーニングする必要があります。そうすれば、この特定のロゴを見ることができます (また、 Coke のロゴや、猫などのまったく関係のないものの写真など、Sprite 以外のロゴのデータセット)。

コンピューターとは異なり、人間がこれらのことを認識することを学習できる理由は、人間の脳が非常に強力であるため、コンピューターでそのようなことを理解するために作成できるニューラル ネットワークです。コンピューターが計算能力の点で人間と同じくらい強力になったときに、この質問を再質問すると、人間のような機械から自動的に回答が返されます。

于 2016-08-31T21:10:41.930 に答える