image-processing - 境界ボックスからの Google Vision Api テキスト検出レイアウト情報

翻译自：https://stackoverflow.com/questions/40984635 2016-12-05T22:37:20.217

3673 次

Google Vision API を使用して、画像に対して OCR を実行しようとしています。API 呼び出しへの Json 出力は、境界ボックス情報を含む認識された単語を返します。

この境界ボックス情報を使用して画像のレイアウト分析を行う方法を教えてください。

これを入力として受け取り、単語の代わりに文を返すライブラリがある場合は?

{
  "description": "Ingredients:",
  "boundingPoly": {
    "vertices": [
      {
        "x": 14,
        "y": 87
      },
      {
        "x": 53,
        "y": 87
      },
      {
        "x": 53,
        "y": 98
      },
      {
        "x": 14,
        "y": 98
      }
    ]
  }
},
{
  "description": "Chicken",
  "boundingPoly": {
    "vertices": [
      {
        "x": 55,
        "y": 87
      },
      {
        "x": 77,
        "y": 87
      },
      {
        "x": 77,
        "y": 98
      },
      {
        "x": 55,
        "y": 98
      }
    ]
  }
},

たとえば、上記の json では、「Ingredients:」「Chicken」という単語が同じ行にあります。この情報をすぐに提供できるライブラリはありますか?

OCRソース画像に使用される画像

image-processing - 境界ボックスからの Google Vision Api テキスト検出レイアウト情報

2 に答える 2

Related

Reference