ocr - TesseractOCRエンジンへのブラックレターフォントサポートの追加

Question

私はリンカーンフォントをTesseractで機能させることに取り組んでおり、非常に複雑なトレーニングプロセスを経た後でも、ひどい結果が得られています。

これはフォントがどのように見えるかなので、ええ、それは少しトリッキーです：

リンカーンサンプル

トレーニング画像を注意深く作成し、それを使用してボックスファイルを作成しました。トレーニング画像はこちら（25MB！）です。画像は300DPIで、代表的な文字が垂直方向と水平方向に適切に配置されています。

トレーニング画像用のボックスファイルを作成しましたが、正常に機能しました。ボックスファイルエディタを使用して、それが正しいことを確認しました。

このボックスファイル/tifファイルを取得し、それを使用してトレーニングデータを作成しました。Tesseractから提供された30個ほどの他のサンプル画像/フォントでも同様に行いました。

unicharsetファイルを作成しました。

font_propertiesファイルを作成しました。フラクトゥールをいつ使用すべきかについてのガイダンスはサイトにありません。だから私はそれを両方の方法で試しました（リンカーンのフラクトゥール）：

eng.lincoln.box 0 0 0 0 1

そしてこのように（フラクトゥールオフ）：

eng.lincoln.box 0 0 0 0 0

そして最後に、辞書ファイルがある場合とない場合でこれを試しました。私が辞書ファイルを使用したとき、それらは私の検索エンジンであるSphinxからのワードマップであり、それらには約15Kの一般的な単語と約20Kの一般的でない単語があります。

いずれの場合も、このファイルの最初の数行（3MB）をOCRしようとすると、品質がひどいものになります。取得するのではなく：

United States Court of Appeals 
for the Federal Circuit

私は得る：

OniteiJ %tates C0urt of QppeaIs
for the jfeI1eraICircuit

なんで？

score 1 · Accepted Answer

より多くのサンプル (文字) とより優れたトレーニング画像 (きれいな背景、グレースケール、300 DPI など) が必要になると思います。そして、最初は 1 つのフォント (たとえば、Lincoln) だけでトレーニングしてみてください。jTessBoxEditorツールを使用して、トレーニングイメージを生成し、ボックスファイルを編集できます。

トレーニングプロセスをマスターしたら、他のフォントをトレーニングに追加できます。結果の言語データの成功をテストするには、トレーニング画像自体で OCR を実行する際にそれを使用します。認識率は高くなるはずです。

font_properties のフォント名は次のようになります。

リンカーン 0 0 0 0 1

score 1 · Accepted Answer

私は Tesseract の専門家ではありませんが、利用可能なほぼすべての OCR エンジンを評価してきました。私のコメントは、長年にわたる OCR エラーの分析の経験に基づいています。

画像の背景に純粋な白い背景ではなく斑点があるのはなぜだろうか。Tesseract やトレーニングツールがどのように機能するかはわかりませんが、背景が問題を引き起こしている可能性があります。

サンプルページを読むだけでも難しく、かなりの集中力が必要です。F や I などの文字は、U や N と同様に非常によく似ています。Tesseract は、多くの OCR エンジンと同様に、文字を認識するためにさまざまな手法を使用しており、これらの文字の多くには、ストロークや曲線に関して大きな違いはありません。フォントで使用されます。

これらの文字、特に大文字は、標準のラテン語/ローマ字とは大きく異なるため、さまざまなマッチングアルゴリズムを混乱させる可能性があります。これは、結果に表示されます。すべての大文字には OCR エラーがあります。

ocr - TesseractOCRエンジンへのブラックレターフォントサポートの追加

2 に答える 2

Related

Reference