私はリンカーンフォントをTesseractで機能させることに取り組んでおり、非常に複雑なトレーニングプロセスを経た後でも、ひどい結果が得られています。
これはフォントがどのように見えるかなので、ええ、それは少しトリッキーです:
トレーニング画像を注意深く作成し、それを使用してボックスファイルを作成しました。トレーニング画像はこちら(25MB!)です。画像は300DPIで、代表的な文字が垂直方向と水平方向に適切に配置されています。
トレーニング画像用のボックスファイルを作成しましたが、正常に機能しました。ボックスファイルエディタを使用して、それが正しいことを確認しました。
このボックスファイル/tifファイルを取得し、それを使用してトレーニングデータを作成しました。Tesseractから提供された30個ほどの他のサンプル画像/フォントでも同様に行いました。
unicharsetファイルを作成しました。
font_propertiesファイルを作成しました。フラクトゥールをいつ使用すべきかについてのガイダンスはサイトにありません。だから私はそれを両方の方法で試しました(リンカーンのフラクトゥール):
eng.lincoln.box 0 0 0 0 1
そしてこのように(フラクトゥールオフ):
eng.lincoln.box 0 0 0 0 0
そして最後に、辞書ファイルがある場合とない場合でこれを試しました。私が辞書ファイルを使用したとき、それらは私の検索エンジンであるSphinxからのワードマップであり、それらには約15Kの一般的な単語と約20Kの一般的でない単語があります。
いずれの場合も、このファイルの最初の数行(3MB)をOCRしようとすると、品質がひどいものになります。取得するのではなく:
United States Court of Appeals
for the Federal Circuit
私は得る:
OniteiJ %tates C0urt of QppeaIs
for the jfeI1eraICircuit
なんで?