windows - Tesseract - マルチフォントタイプはどうすればいいですか?

翻译自：https://stackoverflow.com/questions/15495049 2013-03-19T08:56:31.700

733 次

0

このようなファイル入力があります（数字のみですが、複数のフォントタイプ）。したがって、データのトレーニングにTesseractを使用したい場合。1 つの tiff ファイルに 1 つのフォントタイプのセットを作成するか、1 つの tiff ファイルに複数のフォントタイプを作成する必要がありますか?

ここに画像の説明を入力

何が良いのか、いくつかのヒントを教えてください。あなたのすべての助けに感謝します。

1 に答える 1

1

各トレーニング画像に 1 つのフォントスタイル。Tesseract Training Wikiには次のように記載されています。

トレーニングデータは、フォント別にグループ化する必要があります。理想的には、1 つのフォントのすべてのサンプルを 1 つの tiff ファイルに入れる必要がありますが、これは複数ページの tiff になる可能性があるため (libtiff または leptonica がインストールされている場合)、1 つのフォントの合計トレーニングデータは多くのページと多くの 10 になる場合があります。大規模な文字セット言語のトレーニングを可能にします。
画像ファイルにフォントを混在させないでください (正確には、単一の .tr ファイル内で
)。これにより、クラスタリング時に機能が削除され、認識エラーが発生します。

于 2013-03-19T23:24:01.153 に答える