3

Google Vision API の TEXT_DETECTION に興味があります。しかし、テキストが英語の場合、 TEXT_DETECTION は正確な結果しか得られないようです。私の場合、特定の言語 (私の場合はベトナム語) の広告バナーの検出テキストなど、非常に狭いコンテキストで TEXT_DETECTION を使用したいと考えています。より正確な結果を得るために、自分のデータ コレクションでマシンをトレーニングできますか? そして、これを実装する方法は?

Google Vision API の TEXT_DETECTION のほかに、Google には、Tesseract の依存関係を使用する Google の光学式文字認識 (OCR) ソフトウェアもあります。私が知っているように、それらはテキストを検出するための異なるアルゴリズムを持っています。Google Docs と Google Vision API の TEXT_DETECTION の両方を使用して、画像からテキスト (ベトナム語) を読み取りました。Google Docs は良い結果をもたらしましたが、Vision API はそうではありませんでした。Google Vision API が Google OCR の利点を継承しないのはなぜですか?

Google Vision API のテキスト検出についてもう少し言いたいことがあります。Google の専門家なら誰でもここで読むことができます。Google が発表したように、彼らの TEXT_DETECTION は素晴らしかったです。「この画像の単語は傾いていて不明瞭ですが、OCR は単語とその位置を正しく抽出します。プレゼンターの T シャツの「ビーコン」という単語も検出します」. しかし、私の写真のいくつかでは、起こったことは本当に面白いものでした. たとえば、この写真では、「Kem Oxit」という言葉でさえ写真の中央に非常に大きく、認識されませんでした。または、この写真では、写真中央の赤いテキスト「HOA CHAT NGOC VIET」も認識されませんでした。テキスト検出アルゴリズムに何か問題があるに違いありません。

4

2 に答える 2

2

LanguageHints (ドキュメントへのリンク)を試しましたか?

ベトナム語は、サポートされている言語のリストに含まれています。テキストが常にベトナム語である場合、テキスト検出の品質が向上するはずです。

これが役に立たない場合は、独自のトレーニング例を提供してテキスト検出の品質を向上させることはできません。

于 2016-10-13T20:55:41.253 に答える
1

Fematichの言うとおりです。現在、Google Vision API の TEXT_DETECTION 機能をトレーニングすることはできません。

光学式文字認識ソフトウェアについては、このリンクによると、TEXT_DETECTION の Google Vision API で使用されます。より良い結果を得るには、ベスト プラクティスのいずれかが写真に適用されるかどうかを確認することが重要です。Google ドキュメントには、 Google ドキュメント ヘルプ フォーラムで質問するのが興味深い別の前処理メカニズムがある場合があります。

375x500 ピクセルの解像度を持つ最初の画像は、ベスト プラクティスで説明されている 640x480 ピクセルの最小解像度要件を満たしていません。それでも、1024x1365 ピクセルに再スケーリングすることで、Google Vision API は「Oxit」という単語を検出できました。文字認識のために 2 番目の画像を OCR 推奨サイズの 1024x768 ピクセルに再スケーリングした後、API は再び「HOA CHAT NGOC VIET」という単語の検出に成功しました。将来的には、このタイプの質問はPublic Issue Trackerに適していることに注意してください。正確なエラーを再現するには、さらに詳細が必要になる場合があります。

于 2016-10-26T21:47:49.100 に答える