0

このようなファイル入力があります(数字のみですが、複数のフォントタイプ)。したがって、データのトレーニングにTesseractを使用したい場合。1 つの tiff ファイルに 1 つのフォント タイプのセットを作成するか、1 つの tiff ファイルに複数のフォント タイプを作成する必要がありますか?

ここに画像の説明を入力

何が良いのか、いくつかのヒントを教えてください。あなたのすべての助けに感謝します。

4

1 に答える 1

1

各トレーニング画像に 1 つのフォント スタイル。Tesseract Training Wikiには次のように記載されています。

  • トレーニング データは、フォント別にグループ化する必要があります。理想的には、1 つのフォントのすべてのサンプルを 1 つの tiff ファイルに入れる必要がありますが、これは複数ページの tiff になる可能性があるため (libtiff または leptonica がインストールされている場合)、1 つのフォントの合計トレーニング データは多くのページと多くの 10 になる場合があります。大規模な文字セット言語のトレーニングを可能にします。

  • 画像ファイルにフォントを混在させないでください (正確には、単一の .tr ファイル内で
    )。これにより、クラスタリング時に機能が削除され、認識エラーが発生します。

于 2013-03-19T23:24:01.153 に答える