python - Tesseract eng.traineddata への新しいフォントの「追加」

Question

私の知る限り、Tesseract 3.x には 6 つの英語 (間違っていたら訂正してください) フォントが付属しています。5 種類以上のフォントについて Tesseract をトレーニングする必要があります。必要なのは大文字と数字だけです (特殊文字や記号は必要ありません)。

たとえば、次のようなさまざまなプロセスに従いました。 Tesseract 3 OCRエンジンに新しいフォントを追加する

また、 Serak Tesseract Trainer for Tesseract 3.02などのプロセスを自動化するツールも使用しました。

ボックスファイルの生成にはQT Box Editorを使用しました

上記のツールを使用した後、eng.traineddataファイルを取得します。eng.traineddataすべてのチュートリアルで、このファイルをフォルダーに追加するように指示されていTesseract-OCR\tessdataますが、そうすると、元のeng.traineddataファイルが置き換えられます。これを行った後、Tesseract 3.x に付属するデフォルトのフォントは失われますか?

新しいフォントを追加するにはどうすればよいですか? それはまだ私には明らかではありません。ここで誰かが私を助けてくれることを願っています。ありがとう。

score 17 · Accepted Answer

など、別の名前を使用する必要がありますeng1.traineddata。そうすれば、言語オプションを指定することで、元のデータとともに新しいデータを使用できます-l eng+eng1。

score 0 · Accepted Answer

フォントが異なる新しいトレーニング済みデータがある場合、新しいフォントの辞書修正がないと思います。

新しいトレーニング済みデータを追加するには、これを実行できます (ここでは PHP コードを使用しています)。

//  as you new trained data, it must be 3 letter prefix 
// what ever 3 letter you want
$languange = "eng+deu";
$settingLanguage = $tesseract -> setLanguage($language) ;

tesseract.php 関数を見ると、setLanguage()その関数で言語を設定できます。

python - Tesseract eng.traineddata への新しいフォントの「追加」

2 に答える 2

Related

Reference