ocr - Vision API - 単一のテキスト行として認識されない画像を API に強制的に分析させる

Question

私はGoogle Vision APIを使用してきましたが、実際には解決できない問題があります。これは私が扱っている画像です：

上の画像では、Google Vision API ( IBM (Watson)と Microsft (Cognitive Services)でも発生します)は、2,99€ が 1 行として扱われないため、読み取るものであることを理解していません。したがって、出力はすべてしかし、私が彼に期待していること（レーベルの価格を理解する）。

Tesseract を使用していた場合は、-psm 7オプションを使用して 1 つのテキスト行として読み取るように強制することでこれを解決しますが、Google Vision API を使用してこの状況に関するドキュメントを実際に見つけることができません。

誰かが以前に似たようなことをしたことがありますか? この問題を解決する方法がわかりません...

score 1 · Accepted Answer

同様の問題がありますが、Vision API はこの種の問題には適していないようです。API は、見つかったテキスト (テキストが見つかった長方形以外) の構造に関する情報を提供せず、構造についても気にしません。

私の知る限り、Vision API でこの問題を解決することはまだできませんが、将来的には何らかの解決策があるかもしれません。

現在、AnnotateImageRequest の「ImageContext」部分はありません。これは、あなたが将来やろうとしていることとまったく同じように使用されることを願っています。

ocr - Vision API - 単一のテキスト行として認識されない画像を A​​PI に強制的に分析させる

1 に答える 1

Related

Reference

ocr - Vision API - 単一のテキスト行として認識されない画像を API に強制的に分析させる