2

Google Vision API を使用して、画像に対して OCR を実行しようとしています。API 呼び出しへの Json 出力は、境界ボックス情報を含む認識された単語を返します。

この境界ボックス情報を使用して画像のレイアウト分析を行う方法を教えてください。

これを入力として受け取り、単語の代わりに文を返すライブラリがある場合は?

{
  "description": "Ingredients:",
  "boundingPoly": {
    "vertices": [
      {
        "x": 14,
        "y": 87
      },
      {
        "x": 53,
        "y": 87
      },
      {
        "x": 53,
        "y": 98
      },
      {
        "x": 14,
        "y": 98
      }
    ]
  }
},
{
  "description": "Chicken",
  "boundingPoly": {
    "vertices": [
      {
        "x": 55,
        "y": 87
      },
      {
        "x": 77,
        "y": 87
      },
      {
        "x": 77,
        "y": 98
      },
      {
        "x": 55,
        "y": 98
      }
    ]
  }
},

たとえば、上記の json では、「Ingredients:」「Chicken」という単語が同じ行にあります。この情報をすぐに提供できるライブラリはありますか?

OCRソース画像に使用される画像

4

2 に答える 2