ocr - Tesseract - スペースとタブのあいまいさ

翻译自：https://stackoverflow.com/questions/18089013 2013-08-06T19:39:47.130

7531 次

タブ (4 つのスペース) で区切られたテキストを含む tiff ファイルがありました。しかし、この tiff 画像ファイルからテキストを抽出すると、常に 2 つの列の間に 1 つのスペースが入ります。サンプル例:

TIFF IMAGE:
col-a    col-b    col-c

desired output:
col-a    col-b    col-c

but I am getting the following:
col-a col-b col-c

同じ形式の複数の画像でこれを試しましたが、結果は常に同じです。この問題を解決するにはどうすればよいですか? これを理解するためにtesseractをトレーニングできますか?

2 に答える 2