python - Google Vision OCR の不完全な座標値

Question

さまざまな形式の画像を反復処理するスクリプトがあります。Google Vision Text 検出応答を解析するとき、各テキスト項目の「boundingPoly」の XY 座標を使用して、フォームのさまざまな部分のデータを明確に探します。

私が抱えている問題は、応答の一部が X 座標のみで返されることです。例：

{u'description': u'sometext', u'boundingPoly': {u'vertices': [{u'x': 5595}, {u'x': 5717}, {u'y': 122, u'x': 5717}, {u'y': 122, u'x': 5595}

この問題をキャッチするために (python 2.7 を使用して) try/except を設定しましたが、常に同じ問題です: KeyError: 'y'. 何千ものフォームを繰り返し処理しています。これまでのところ、1000 行中 10 行で発生しています。

誰かが以前にこの問題を抱えていましたか? このエラーに達した場合、リクエストを再送信する以外に修正方法はありますか?

score 8 · Accepted Answer

ドキュメントから：

バウンディングポリ

オブジェクト(境界ポリ)

顔の周りのバウンディングポリゴン。境界ボックスの座標は、ImageParams で返される元の画像のスケールです。境界ボックスは、人間の期待に応じて顔を「フレーム化」するために計算されます。これは、ランドマークの結果に基づいています。注釈を付ける画像に部分的な面しか表示されない場合、1 つ以上の x および/または y 座標が BoundingPoly で生成されない場合があることに注意してください (多角形は境界がありません)。

'y'これは、この場合の値が0、またはより一般的にはエッジ値であることを意味していると思います。言い換えれば、テキストが画像の端までずっと続くため、境界付きポリゴンが実際にどこで終了するかがわからないため、画像は、テキストが実際にそこで終了することを確認するのに十分な情報を提供しません。 . 画像が提供する限り、それは / で終わり'y'ます0。

python - Google Vision OCR の不完全な座標値

1 に答える 1

Related

Reference