pdf - tesseract が pdf ファイル用に作成する非表示のテキストレイアウトを取得するにはどうすればよいですか?

翻译自：https://stackoverflow.com/questions/35841255 2016-03-07T10:24:34.283

427 次

2

私はocrの経験があまりありません。これが私が試したことです：

tesseract -l eng -psm 1 image_str007_0001.jpg image_str007_tess pdf

その結果、完全に構造化された隠しテキストレイアウトが作成されます。PDF を検索すると、単語は正確な場所に表示されます。私の質問は、このレイアウトをファイル (hocr または html) として取得できますか? (API ではなく、設定パラメータが優先されます。)

私が試したこと：
tesseract -l eng -psm 1 image_str007_0001.jpg 出力 hocr

と

hocr2pdf -i image_str007_001 -o output.pdf < output.hocr

ファイル output.pdf では、テキストを検索すると単語がひどく間違って配置されています。コマンド 2. は tesseract hocr レイアウトファイルを作成するのに正しくありませんか、それとも hocr2pdf アプリは pdf を正しく作成しませんか?

0 に答える 0