Google Cloud Vision OCR には、境界ボックス オブジェクトの次の出力があります。
vertices {
x: 786
y: 967
}
バウンディング ボックスの望ましい出力形式
これらの座標をバウンディング ボックスの座標に変換して、hOCR 形式で書き込みたいと思います。ファイルに書き込むための次の形式が含まれます。
<span class='ocr_line' title="bbox 348 797 1482 838; baseline -0.009 -6">
質問?
- では、これらの x 座標と y 座標をこれらの bbox (バウンディング ボックス座標) に変換するにはどうすればよいでしょうか。
- これらは何ですか、
x
座標y
は (x_min
、y_max
) または (x_max
、y_min
) です。一般に、これらの x と y が何を表しているのかも知りたいですか?
画像の作業
テストとして次の画像に取り組んでいます。