Google Vision API の TEXT_DETECTION に興味があります。しかし、テキストが英語の場合、 TEXT_DETECTION は正確な結果しか得られないようです。私の場合、特定の言語 (私の場合はベトナム語) の広告バナーの検出テキストなど、非常に狭いコンテキストで TEXT_DETECTION を使用したいと考えています。より正確な結果を得るために、自分のデータ コレクションでマシンをトレーニングできますか? そして、これを実装する方法は?
Google Vision API の TEXT_DETECTION のほかに、Google には、Tesseract の依存関係を使用する Google の光学式文字認識 (OCR) ソフトウェアもあります。私が知っているように、それらはテキストを検出するための異なるアルゴリズムを持っています。Google Docs と Google Vision API の TEXT_DETECTION の両方を使用して、画像からテキスト (ベトナム語) を読み取りました。Google Docs は良い結果をもたらしましたが、Vision API はそうではありませんでした。Google Vision API が Google OCR の利点を継承しないのはなぜですか?
Google Vision API のテキスト検出についてもう少し言いたいことがあります。Google の専門家なら誰でもここで読むことができます。Google が発表したように、彼らの TEXT_DETECTION は素晴らしかったです。「この画像の単語は傾いていて不明瞭ですが、OCR は単語とその位置を正しく抽出します。プレゼンターの T シャツの「ビーコン」という単語も検出します」. しかし、私の写真のいくつかでは、起こったことは本当に面白いものでした. たとえば、この写真では、「Kem Oxit」という言葉でさえ写真の中央に非常に大きく、認識されませんでした。または、この写真では、写真中央の赤いテキスト「HOA CHAT NGOC VIET」も認識されませんでした。テキスト検出アルゴリズムに何か問題があるに違いありません。