11

tesseract で GetHOCRText(0) メソッドを使用すると、html でテキストを取得でき、webview で html を表示するとテキストを取得できますが、画像内のテキストの位置は出力とは異なります。どのアイデアも非常に役立ちます。

 tesseract->SetInputName("word");
tesseract->SetOutputName("xyz");
tesseract->Recognize(NULL);


char *utf8Text=tesseract->GetHOCRText(0);

これは私がtesseractに使用している画像です

と出力画像ここに画像の説明を入力

4

2 に答える 2

3

hocr の出力がある場合は、単語ごとにタグを付ける必要があります。これらのタグには、class="ocrx_word" と name="bbox x1 y1 x2 y2" が必要です。x と y は、単語を囲む境界ボックスの左上隅と右下隅です。この情報を自動的に使用してテキスト ドキュメントをフォーマットすることはできないと思います。ピクセルの違いをタブ/スペースの数に変換する必要があります。ただし、指定された場所にテキストをレンダリングできる必要があります。

于 2013-07-05T14:50:56.673 に答える
1

GetBoxText()メソッドは、配列内の各文字の正確な位置を返します。

char *boxtext = _tesseract->GetBoxText(0);
NSString* aBoxText = [NSString stringWithUTF8String:boxtext];
于 2013-04-29T12:19:36.523 に答える