1

ImageMagickとghostscriptを使用してOCRされたPDfをpngに変換し、ブラウザーに表示して、ユーザーに単語をクエリさせることで画像内の単語を選択できるようにするプロジェクトに取り組んでいます。Imagemagick は、 ghostscript と一緒に正常に動作します。

ps2text ユーティリティに問題があり、pdf で確実に動作しません。Postscript を Linux でテキストに変換してデータベースに保存できるようにするための優れたユーティリティを誰かが提案できますか。その後、カスタム作成された検索クラスを使用して、各単語の座標を見つけ、ブラウザでテキストを強調表示します。

ありがとう

4

1 に答える 1

0

追記には、ps2textを使用する必要があります。PDFの場合、pdftotextを実行できます。

于 2010-05-26T19:45:15.520 に答える