1

Google Cloud Vision OCR には、境界ボックス オブジェクトの次の出力があります。

vertices {
  x: 786
  y: 967
}

バウンディング ボックスの望ましい出力形式

これらの座標をバウンディング ボックスの座標に変換して、hOCR 形式で書き込みたいと思います。ファイルに書き込むための次の形式が含まれます。

  <span class='ocr_line' title="bbox 348 797 1482 838; baseline -0.009 -6">

質問?

  • では、これらの x 座標と y 座標をこれらの bbox (バウンディング ボックス座標) に変換するにはどうすればよいでしょうか。
  • これらは何ですか、x座標yは ( x_miny_max) または ( x_maxy_min) です。一般に、これらの x と y が何を表しているのかも知りたいですか?

画像の作業

テストとして次の画像に取り組んでいます。

テスト画像

4

1 に答える 1