私が理解しているように、人間がはっきりと読めるはずの著作権で保護されたテキストのコレクションがありますが、それがサーバーから電子形式で漏洩することは望ましくありません。特にテキストが非常に長い場合、テキストを難読化して OCR を難しくすることは良い考えではないと思います。基本的に、人間にとって読みやすいものは、完全に OCR 化できます。OCRが難しいことは、人にとっても難しい。最悪の場合、攻撃者はインドの会社を雇って手動でテキストを再入力する可能性がありますが、実際にはそれほど費用はかかりません。
適切な保護を行うために、他の側面を探すことをお勧めします。ユースケースはどのように見えますか? ユーザーが自分の PC でテキストを画像として取得できるのはなぜですか? PDFまたは画像ファイルとしてダウンロードしますか? この場合、ファイルを読み取れないようにするよりも、ファイルをダウンロードする可能性と戦う方がはるかに簡単です。
たとえば、一度にファイル全体へのアクセスを許可するのではなく、次のページに移動するために人間の介入が必要なページごとに表示することを考えるかもしれません。Web インターフェイスをスクランブルして、一般的なサイト ダウンロード ユーティリティですべてをダウンロードできないようにすることもできます。各ページは同じ URL に表示される必要がありますが、実際のナビゲーションは AJAX または独自のインターフェイスを使用してサーバーと通信する必要があります。
もう 1 つの方法は、すべてのページに多くの偽のリンクを人間には見えないようにすることですが、ダウンロード ユーティリティを誤解させて大量の間違ったコンテンツをダウンロードさせたり、間違った順序でダウンロードして使用できなくしたりします。
また、自動ダウンロードとの戦いに成功した場合は、コンテンツを画像として提供する必要さえありません。画像はそのままのテキストでもかまいませんが、その一部にすぎません。とにかく使えなくなります。
どちらに進むべきかについてのアイデアが得られることを願っています。