Tesseract
いくつかのスクリーンショットの OCR を使用しています。スクリーンショットの文字はraster fonts
. ただし、トレーニングにはファイルTesseract
が必要です。True Type Font
フォルダーには多くの True Type フォント ファイルがありWindows/Fonts
ます。ラスターフォント用のものがあるかどうか疑問に思っていますか?
Tesseract
いくつかのスクリーンショットの OCR を使用しています。スクリーンショットの文字はraster fonts
. ただし、トレーニングにはファイルTesseract
が必要です。True Type Font
フォルダーには多くの True Type フォント ファイルがありWindows/Fonts
ます。ラスターフォント用のものがあるかどうか疑問に思っていますか?
ただし、「ラスター フォント」は実際のものではありません。OpenType (truetype は 2 つの内部エンコーディングのうちの 1 つです) は真のフォントであり、非常に詳細で信頼できる仕様に準拠していますが、ラスター フォントはほとんど「単一の仕様はありません。作成したものを解凍する方法をプログラムが知っている限り、何でも好きなものを発明できます。」ラスター/ビットマップ フォントを定義するにはさまざまな方法があり、それらはすべて基本的に.bitmap image + header that says which letter maps to which x/y/w/h rectangle in the image
ビットマップ フォントはスケーリングできないため、OCR はそれらを使用したくありません。最も単純な理由は「公式のビットマップ フォントの仕様がない」ためですが、あったとしても、ビットマップ フォントを OCR の結果に一致させようとしている場合は、ビットマップ フォントのニーズに対して、ページ全体の幅または高さが 1 ピクセルでもずれていると、一致するテキストがまったくなくなる可能性があります。Bbitmap フォントは、フォント サイズ (通常は 1 つだけ、場合によっては複数ですが、厳密に固定されています) に固定されるようにエンコードされているため、スキャンしたドキュメントが正確に正しいサイズでない場合、どのピクセルも完全にオーバーラップせず、ばかげたことにつながります。 O と V のように、V と O のいずれかを同じ信頼性で一致させます。これは、垂直方向に小さなピクセル シフトを行うと、V と O が同じ数のエラー ピクセルでオーバーラップする可能性があるためです。
一方、OpenType フォントはベクター アウトラインを使用し、非常に成功しているさまざまなアルゴリズムと最適に一致するようにスケーリングできます。スキャンしたドキュメントが「極端に小さすぎる」場合を除き、ベクトル変換では問題なく 90 ~ 100% の一致が得られます。
代わりに、MyFont.com のWhat The Font!のようなものを見つけてください。スキャンしたドキュメントの切り抜きに 1 文 (2 文程度) を挿入すると、それに最も近いフォントを教えてもらい、そのフォントを OCR トレーニングに使用するだけです。超効果的!