私はGoogle Vision APIを使用してきましたが、実際には解決できない問題があります。これは私が扱っている画像です:
上の画像では、Google Vision API ( IBM (Watson)と Microsft (Cognitive Services)でも発生します)は、2,99€ が 1 行として扱われないため、読み取るものであることを理解していません。したがって、出力はすべてしかし、私が彼に期待していること(レーベルの価格を理解する)。
Tesseract を使用していた場合は、-psm 7
オプションを使用して 1 つのテキスト行として読み取るように強制することでこれを解決しますが、Google Vision API を使用してこの状況に関するドキュメントを実際に見つけることができません。
誰かが以前に似たようなことをしたことがありますか? この問題を解決する方法がわかりません...