Google Vision API のテキスト検出機能を試しており、テキスト画像に対して OCR を実行しようとしています。テキスト画像は非常にきれいで、80% の確率で機能します。エラーの 20% には、誤って解釈された数字/文字 (修正可能) と、単純に表示されない単語/数字 (修正不可能!) が含まれます。
ベスト プラクティス ページのヒント (画像は 1024x768、16 ビット PNG) に従いましたが、役に立ちませんでした。
例を次に示します: このサンプル ページ https://storage.googleapis.com/ximian-cloud.appspot.com/sample_page.png
番号は 177 (観測中、「RT ARM」の権利) であり、これは API によってまったく検出されません ...
私は試した:
- 2 倍の解像度 (2048 x 1536)
- BMP 24 ビット
- BMP 32 ビット
- 上記のすべて、グレースケール
- 上記全て反転(黒背景白文字)
運が悪い...
なぜこれが起こっているのかについてのヒントはありますか?それはAPIですか、それとも私の画像フォーマットは何らかのフォーマットを使用できますか?