14

私の知る限り、Tesseract 3.x には 6 つの英語 (間違っていたら訂正してください) フォントが付属しています。5 種類以上のフォントについて Tesseract をトレーニングする必要があります。必要なのは大文字と数字だけです (特殊文字や記号は必要ありません)。

たとえば、次のようなさまざまなプロセスに従い ました。 Tesseract 3 OCRエンジンに新しいフォントを追加する

また、 Serak Tesseract Trainer for Tesseract 3.02などのプロセスを自動化するツールも使用しました。

ボックス ファイルの生成にはQT Box Editorを使用しました

上記のツールを使用した後、eng.traineddataファイルを取得します。eng.traineddataすべてのチュートリアルで、このファイルをフォルダーに追加するように指示されていTesseract-OCR\tessdataますが、そうすると、元のeng.traineddataファイルが置き換えられます。これを行った後、Tesseract 3.x に付属するデフォルトのフォントは失われますか?

新しいフォントを追加するにはどうすればよいですか? それはまだ私には明らかではありません。ここで誰かが私を助けてくれることを願っています。ありがとう。

4

2 に答える 2

17

など、別の名前を使用する必要がありますeng1.traineddata。そうすれば、言語オプションを指定することで、元のデータとともに新しいデータを使用できます-l eng+eng1

于 2013-05-02T12:45:27.297 に答える
0

フォントが異なる新しいトレーニング済みデータがある場合、新しいフォントの辞書修正がないと思います。

新しいトレーニング済みデータを追加するには、これを実行できます (ここでは PHP コードを使用しています)。

//  as you new trained data, it must be 3 letter prefix 
// what ever 3 letter you want
$languange = "eng+deu";
$settingLanguage = $tesseract -> setLanguage($language) ; 

tesseract.php 関数 を見ると、setLanguage()その関数で言語を設定できます。

于 2015-03-29T09:16:50.623 に答える