2

私はocrの経験があまりありません。これが私が試したことです:

  1. tesseract -l eng -psm 1 image_str007_0001.jpg image_str007_tess pdf

    その結果、完全に構造化された隠しテキスト レイアウトが作成されます。PDF を検索すると、単語は正確な場所に表示されます。私の質問は、このレイアウトをファイル (hocr または html) として取得できますか? (API ではなく、設定パラメータが優先されます。)

    私が試したこと:

  2. tesseract -l eng -psm 1 image_str007_0001.jpg 出力 hocr

  1. hocr2pdf -i image_str007_001 -o output.pdf < output.hocr

    ファイル output.pdf では、テキストを検索すると単語がひどく間違って配置されています。コマンド 2. は tesseract hocr レイアウト ファイルを作成するのに正しくありませんか、それとも hocr2pdf アプリは pdf を正しく作成しませんか?

4

0 に答える 0