image - OCRリバースエンジニアリングとの戦い

Question

私はソフトウェアベースの OCR を参照していますか?画像からテキストエンジンへの変換ツールです。stackoverflow には OCR の構築に関する投稿がたくさんありますが、画像をリバースエンジニアリングから保護する方法に関するガイダンスと同様に、私は反対の見方をしています。

たとえば、テキストのみを含む画像があります。データをデコードするのを難しくするにはどうすればよいですか?これを実行できる画像形式はありますか? それとも画像を難読化できますか？

特殊なフォントや歪みを使用すると、OCR 保護を保証できますか? ただし、私の要件では、歪んだテキストが大量に提供されることは許可されていません。

どの方向も非常に役立ちます

score 4 · Accepted Answer

私が理解しているように、人間がはっきりと読めるはずの著作権で保護されたテキストのコレクションがありますが、それがサーバーから電子形式で漏洩することは望ましくありません。特にテキストが非常に長い場合、テキストを難読化して OCR を難しくすることは良い考えではないと思います。基本的に、人間にとって読みやすいものは、完全に OCR 化できます。OCRが難しいことは、人にとっても難しい。最悪の場合、攻撃者はインドの会社を雇って手動でテキストを再入力する可能性がありますが、実際にはそれほど費用はかかりません。

適切な保護を行うために、他の側面を探すことをお勧めします。ユースケースはどのように見えますか? ユーザーが自分の PC でテキストを画像として取得できるのはなぜですか? PDFまたは画像ファイルとしてダウンロードしますか? この場合、ファイルを読み取れないようにするよりも、ファイルをダウンロードする可能性と戦う方がはるかに簡単です。

たとえば、一度にファイル全体へのアクセスを許可するのではなく、次のページに移動するために人間の介入が必要なページごとに表示することを考えるかもしれません。Web インターフェイスをスクランブルして、一般的なサイトダウンロードユーティリティですべてをダウンロードできないようにすることもできます。各ページは同じ URL に表示される必要がありますが、実際のナビゲーションは AJAX または独自のインターフェイスを使用してサーバーと通信する必要があります。

もう 1 つの方法は、すべてのページに多くの偽のリンクを人間には見えないようにすることですが、ダウンロードユーティリティを誤解させて大量の間違ったコンテンツをダウンロードさせたり、間違った順序でダウンロードして使用できなくしたりします。

また、自動ダウンロードとの戦いに成功した場合は、コンテンツを画像として提供する必要さえありません。画像はそのままのテキストでもかまいませんが、その一部にすぎません。とにかく使えなくなります。

どちらに進むべきかについてのアイデアが得られることを願っています。

score 1 · Accepted Answer

私はあなたがそれをすることができるとは思わない。CAPTCHAの場合、そうです。たくさんの研究がありますが、個人的な経験から、彼らが読むのがどれほど面倒かを知ることもできます。長いテキストの場合は不可能です。ただし、ここではユースケースやビジネスモデルに真剣に疑問を投げかけます。何らかの理由でOCRからの保護が必要なコンテンツがあります。つまり、誰かがあなたのコンテンツをOCRするためにリソースを費やすことをいとわないということです。なぜあなたはそれらの人々と戦うのですか？それらを顧客にして、コンテンツをプレーンテキストでいくらかの料金で提供します。その料金が彼らのOCRコストよりも少ない場合、あなたはお互いに有利です。あなたが実装しようとしていることは、負け負けのように聞こえます。

score 1 · Accepted Answer

私や他の人が言ったように、OCR が読めないほど大量のテキストを不明瞭にすると、人間にとって実用的ではなくなります。

打ち負かそうとしている特定の脅威はありますか? 単純な Web クローラーは JavaScript を実行しないことが多いため、テキストをスクレイピングしにくくする愚かな方法は、テキストを AJAX リクエストで読み込んで DOM に挿入することです。

または、より強力にしたい場合は、テキストを Flash または Silverlight コントロールに表示することもできます。それでも OCR 対応ではありませんが、大量のテキストを自動的に取得することは簡単ではありません。 Flash スクロールバーおよび/またはページネーション。(テキストのような単純なものに対する Flash コントロールは、使用するのが面倒くさく、検索もブックマークもできず、大部分のモバイルデバイスでは明らかに機能しないことを指摘しておく必要があります。)

score 0 · Accepted Answer

テキストに目に見えない文字やその他の「ノイズ」を使用して、テキストを難読化するページを見てきました。このようにして、コピーするのがはるかに難しくなりますが、テキストとして表示できます。

もう 1 つのアイデアは、「盗まれた」コピーがどこから来たのかを認識できるように、何らかの方法でテキストに透かしを入れることです。これが役立つかどうかは、何から保護したいかによって異なります。すでに述べたように、読み取り可能であれば、誰かが手動でコピーできます。

image - OCRリバースエンジニアリングとの戦い

4 に答える 4

Related

Reference