私は、外国情報監視裁判所から出された大幅に編集された文書のアーカイブを維持しています。
次のようなテキストの大きなセクションが付属しています。
OCR がこれを処理しようとすると、次のようなテキストが表示されます。
このデータを 90 日間毎日生成します。これの唯一の目的は
生産とは、以下を支援する外国の諜報情報を入手することです。
国際テロから保護するための個々の承認された調査と
そのため、黒く塗りつぶされたスポットがあるOCRedバージョンでは、単語が欠落しているだけです. 欠落している単語によって、異なる/奇妙な意味を持つ文法的に正しい文が作成されることがあります (上記のように)。また、結果の文が意味をなさない場合もありますが、どちらにしても問題です。代わりに、OCR エンジンがこれらのスポットまたは ▮▮▮▮ のような Unicode 四角形に対して X を返すことができれば、はるかに優れています。
私が望む結果は次のようなものです:
このデータを 90 日間毎日生成します。これの唯一の目的は
XXXXXXXXXXXX を支援する外国の諜報情報を取得することを目的としています。
国際テロから保護するための個々の承認された調査と
私の質問は、これらの X を取得する方法です。画像を分析して黒い斑点を特定する方法はありますか? それらを X またはより優れた Unicode 文字に置き換える方法はありますか? これを正しく見せるためのアイデアは何でも受け入れますが、画像編集は私には向いていませんし、OCR エンジンの奥深くをハッキングすることもできません。