iphone - tesseract の画像からテキストの正確な位置を取得する

Question

tesseract で GetHOCRText(0) メソッドを使用すると、html でテキストを取得でき、webview で html を表示するとテキストを取得できますが、画像内のテキストの位置は出力とは異なります。どのアイデアも非常に役立ちます。

 tesseract->SetInputName("word");
tesseract->SetOutputName("xyz");
tesseract->Recognize(NULL);


char *utf8Text=tesseract->GetHOCRText(0);

これは私がtesseractに使用している画像です

と出力画像ここに画像の説明を入力

score 3 · Accepted Answer

hocr の出力がある場合は、単語ごとにタグを付ける必要があります。これらのタグには、class="ocrx_word" と name="bbox x1 y1 x2 y2" が必要です。x と y は、単語を囲む境界ボックスの左上隅と右下隅です。この情報を自動的に使用してテキストドキュメントをフォーマットすることはできないと思います。ピクセルの違いをタブ/スペースの数に変換する必要があります。ただし、指定された場所にテキストをレンダリングできる必要があります。

score 1 · Accepted Answer

GetBoxText()メソッドは、配列内の各文字の正確な位置を返します。

char *boxtext = _tesseract->GetBoxText(0);
NSString* aBoxText = [NSString stringWithUTF8String:boxtext];

iphone - tesseract の画像からテキストの正確な位置を取得する

2 に答える 2

Related

Reference