ImageMagickとghostscriptを使用してOCRされたPDfをpngに変換し、ブラウザーに表示して、ユーザーに単語をクエリさせることで画像内の単語を選択できるようにするプロジェクトに取り組んでいます。Imagemagick は、 ghostscript と一緒に正常に動作します。
ps2text ユーティリティに問題があり、pdf で確実に動作しません。Postscript を Linux でテキストに変換してデータベースに保存できるようにするための優れたユーティリティを誰かが提案できますか。その後、カスタム作成された検索クラスを使用して、各単語の座標を見つけ、ブラウザでテキストを強調表示します。
ありがとう