node.js - Tesseract - 入力座標の画像からテキストを抽出する方法は?

Question

画像と座標を入力する必要があります。入力座標に存在するテキストは、出力として読み取る必要があります。node-tesseract を使用してこれを行う方法は?

score 3 · Accepted Answer

Tesseract から返された .hocr ファイルを調べる必要があります (詳細については、最初に hocr をグーグルで検索できます)。.hocr には、テキストのすべての境界ボックス (x、y、幅、高さ、言語など) が含まれます。次に、入力から取得した座標内にあるすべてのボックスを計算します。

参考： http: //gamemath.com/2011/09/detecting-wether-two-boxes-overlap/

更新：

私はあなたのためにいくつかの調査を行いました。ここに、Githubで見つけることができるJavascriptの「最高の」（ほとんどの星）githubリポジトリがあります

https://github.com/search?utf8= ✓&q=tesseract+language%3Ajavascript

そして最高のものはtesseract.js、10000以上の星があり、最近まだコミットしているものです

https://github.com/naptha/tesseract.js

私がハイライトした部分は.hocr(tesseract.js名前付きhtml)です

node.js - Tesseract - 入力座標の画像からテキストを抽出する方法は?

2 に答える 2

Related

Reference