2

tesseract を使用して、テキスト iPhone を抽出しました。xml のテキスト位置と共にテキストを抽出したいと考えています。HTML のテキストを取得する GetHocrText を使用します。

例:-

<span class='ocr_word' id='word_3_28' title="bbox 55 226 123 243">
<span class='ocrx_word' id='xword_3_28' title="x_wconf -5">Beverage</span>
</span>

tesseract OCRでXML形式のテキストを抽出する他の方法はありますか?

前もって感謝します

スリヴィディヤ

4

2 に答える 2