私はocrの経験があまりありません。これが私が試したことです:
tesseract -l eng -psm 1 image_str007_0001.jpg image_str007_tess pdf
その結果、完全に構造化された隠しテキスト レイアウトが作成されます。PDF を検索すると、単語は正確な場所に表示されます。私の質問は、このレイアウトをファイル (hocr または html) として取得できますか? (API ではなく、設定パラメータが優先されます。)
私が試したこと:
tesseract -l eng -psm 1 image_str007_0001.jpg 出力 hocr
と
hocr2pdf -i image_str007_001 -o output.pdf < output.hocr
ファイル output.pdf では、テキストを検索すると単語がひどく間違って配置されています。コマンド 2. は tesseract hocr レイアウト ファイルを作成するのに正しくありませんか、それとも hocr2pdf アプリは pdf を正しく作成しませんか?