unicode - NSA と FISC の編集を理解するために OCR を教える

Question

私は、外国情報監視裁判所から出された大幅に編集された文書のアーカイブを維持しています。

次のようなテキストの大きなセクションが付属しています。

編集されたテキストのスクリーンショット

OCR がこれを処理しようとすると、次のようなテキストが表示されます。

このデータを 90 日間毎日生成します。これの唯一の目的は

生産とは、以下を支援する外国の諜報情報を入手することです。

国際テロから保護するための個々の承認された調査と

そのため、黒く塗りつぶされたスポットがあるOCRedバージョンでは、単語が欠落しているだけです. 欠落している単語によって、異なる/奇妙な意味を持つ文法的に正しい文が作成されることがあります (上記のように)。また、結果の文が意味をなさない場合もありますが、どちらにしても問題です。代わりに、OCR エンジンがこれらのスポットまたは ▮▮▮▮ のような Unicode 四角形に対して X を返すことができれば、はるかに優れています。

私が望む結果は次のようなものです：

このデータを 90 日間毎日生成します。これの唯一の目的は

XXXXXXXXXXXX を支援する外国の諜報情報を取得することを目的としています。

国際テロから保護するための個々の承認された調査と

私の質問は、これらの X を取得する方法です。画像を分析して黒い斑点を特定する方法はありますか? それらを X またはより優れた Unicode 文字に置き換える方法はありますか? これを正しく見せるためのアイデアは何でも受け入れますが、画像編集は私には向いていませんし、OCR エンジンの奥深くをハッキングすることもできません。

score 0 · Accepted Answer

これらの長いブロブに対して Tesseract をトレーニングすることをお勧めします。ブロブの長さに応じて、異なる数の「X」文字を割り当てます。トレーニングプロセスについては、TrainingTesseract3を参照してください。

unicode - NSA と FISC の編集を理解するために OCR を教える

1 に答える 1

Related

Reference