4

人間しか読めない文書を書こうとしています。ドキュメントの内容をコピーできません。そのために、私はそのページを写真に変換し、PDFファイルに追加し直しています。主な問題は、どのOCRプログラムでも、書かれたテキスト全体を取り戻すことができることです。特に、ページが(スキャンされた本ではなく)クリアになり、OCRの精度が向上します。

それで、OCRで認識できないフォントはありますか?それ以外の場合、私のドキュメントを人間だけが読み取れるようにするが、OCRでは認識されないようにする手法はありますか?(たとえば、特定の背景を追加するなど...)

前もって感謝します。

4

5 に答える 5

5

一般に、OCRは「フォント」を識別することによってテキストを認識しません。代わりに、文字の特徴と形状を分析することによって認識します。つまり、図の空き領域、さまざまなテキストの形状、およびファイル内の文字の類似点を探します。変換のためにスキャンされました。(そのため、フォントを使用していない手書きのドキュメントも認識できます)

それらの機能を通じてテキストを識別するこのプロセスは、次のように知られています。Intelligent Character Recognition

OCRで読み取れないようにするためにどのフォントを使用するかという質問に対する特定の答えはないと思いますが、一般的なOCRでより難しくするために、このような書道フォントを使用してみてください一般的な文字機能、したがってコンピュータソフトウェアが読みにくい(これはCAPTCHAの背後にある主要なアイデアでもあります)。

しかし、これも一般的なOCRに苦労する可能性がありますが、それでも100%成功するソリューションではありません。さらに、人間が読むのが非常に難しくなります。

于 2012-11-13T11:06:12.437 に答える
1

CAPTCHAテクノロジーを見てください。それはあなたの目的を共有しているので、あなたの困難に対する解決策/落とし穴をすでに見つけているはずです。

于 2012-11-13T10:58:58.583 に答える
0

あなたが望むものに対する本当の解決策はありません。これは、同時に公開しようとしている間、抑制しようとする典型的な例です。これはほとんど意味がありません。

既製のOCRソリューションでは認識されない特別なフォントがいくつかあります。ユーザーは、これらのフォントを認識するプラグインを取得するために追加のライセンスが必要になります。例として、古いドイツ語の「Fraktur」フォントがあります。しかし、人間にとっても読むのはかなり難しいです:-)

于 2012-11-13T10:58:21.697 に答える
0

ドキュメントでグラフィック透かしを使用すると、OCRが混乱する可能性があります。

于 2012-11-13T12:05:16.147 に答える
0

Tesseractなどの一部のOCRエンジンでは、接続されたスクリプトまたは筆記体のスクリプト(グリフの結合)の処理に問題があることを知っています。あなたはそれらを試して調べたいと思うかもしれません。

于 2012-11-15T02:05:47.057 に答える