2

編集: mftrainingは、ユニチャートセット内のすべての文字(Fだけでなく、a、b、c、dなど)のタイトルに警告を表示します。これらのprotos / configsを作成するにはどうすればよいですか?

私はこのチュートリアルに従っています


現在解決されている前の質問
:-Error:Assert failedWarning:in file .... \ classify \ trainingsampleset.cpp、line 622 no protos / Segmentation Fault
これはコマンド全体+出力です:-

C:\ training> mftraining -F font_properties -U unicharset -O eng.unicharset eng.impact.box.tr警告:シェイプテーブルファイルがありません:shapetable読み取りeng.impact.box.tr...フォントID= -1 / 0、サンプル0のクラスID = 1/103 font_id> = 0 && font_id <font_id_map_.SparseSize():Error:Assert failed:in file .... \ classify \ trainingsampleset.cpp、line 622

ユニチャーセット内のすべての文字(それほど多くはありませんでした)のタイトルにあるこの警告で見つけたすべてのものを調べたので、Fだけでなく、a、b、c、dなども)どのように問題が何であり、何がそれを機能させるのか理解できませんか?これらのprotos/configsを作成しますか?

shapeclusteringコマンドも試しましたが、同じエラーが発生します。また、これらをcygwinで実行すると、アサーションエラーの代わりにセグメンテーションフォールトが表示されます。

4

7 に答える 7

3

私は同じ問題を抱えていました、そしてそれは確かにfont_propertiesの問題でした。ただし、私の場合は、font_propertiesのフォントが.trファイルのフォント名と正確に一致することを確認することで解決しました。私の場合、それは[fontname].exp0でした。

于 2013-03-06T06:56:58.210 に答える
2

私はあなたと同じ問題を抱えています。そして、それはfont_propertiesが正しくフォーマットされていないためです。

font_propertiesファイルの各行は、次のようにフォーマットされています。fontname italic bold fixed serif fraktur

ここでは、フォント名のみが必要です。ファイルをlang.fontname.exp000 000からfontname00 0 0 0に変更すると、問題が修正されました

于 2012-12-29T16:24:41.907 に答える
2

この問題の2つの考えられる原因を見つけました。

考えられる原因1:font_propertiesが正しくない

font_propertiesファイルには、次の説明の内容が含まれている必要があります。

https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.00%E2%80%933.02#font_properties-new-in-301

また、ファイルエンコーディングは次の要件を満たしている必要があります。

https://github.com/tesseract-ocr/tesseract/wiki/Training-Tesseract-3.00%E2%80%933.02#requirements-for-text-input-files

これはインターネット上で最も一般的な答えです。

(また、言語ではなくfont_propertiesでフォントを指定していることを確認してください。)

考えられる原因2:トレーニングファイル名が間違っている

しかし、font_propertiesを修正しようとしてもうまくいかないことがわかり、私の場合も同じエラーが発生する別の原因が見つかりました。

ファイル.trファイルには、次の形式が含まれている必要があります。

<language>.<fontname>.exp<num>.tr

ではなく:

<language>.<fontname>.exp<num>.box.tr

(いくつかのチュートリアルで見られるように)

したがって、私の場合、これは機能しません。

tesseract eng.unknown.exp1.png eng.unknown.exp1.box nobatch box.train
unicharset_extractor eng.unknown.exp1.box
mftraining -F font_properties -U unicharset -O eng.unicharset eng.unknown.exp1.box.tr

一方、この小さな変更は機能します。

tesseract eng.unknown.exp1.png eng.unknown.exp1 nobatch box.train
unicharset_extractor eng.unknown.exp1.box
mftraining -F font_properties -U unicharset -O eng.unicharset eng.unknown.exp1.tr
于 2015-03-08T18:39:00.333 に答える
1

Tesseract3.02トレーニングの新機能であるシェイプクラスタリングステップを見逃しています。

于 2012-12-25T05:49:03.010 に答える
1

私は同じ問題を抱えていて、変化しました

 fontname 0 0 0 0 0

 fontname.exp0 0 0 0 0 0

.trファイルのフォント名によるとそれを修正しました

于 2014-01-23T10:50:13.837 に答える
0

私は同じ問題を抱えていました、そしてfont_properties以下のように変更することはそれを修正しました:

から - batangche 1 0 0 0 0

に - batangche.exp0 1 0 0 0 0

于 2014-10-01T19:15:26.867 に答える
0

私の場合、font_propertiesファイルのフォント名は大文字でしたが、.trファイルのフォント名は小文字でした。それらを同じケースに変更すると、問題が解決しました。

于 2016-10-10T06:01:48.777 に答える