このようなファイル入力があります(数字のみですが、複数のフォントタイプ)。したがって、データのトレーニングにTesseractを使用したい場合。1 つの tiff ファイルに 1 つのフォント タイプのセットを作成するか、1 つの tiff ファイルに複数のフォント タイプを作成する必要がありますか?
何が良いのか、いくつかのヒントを教えてください。あなたのすべての助けに感謝します。
各トレーニング画像に 1 つのフォント スタイル。Tesseract Training Wikiには次のように記載されています。
トレーニング データは、フォント別にグループ化する必要があります。理想的には、1 つのフォントのすべてのサンプルを 1 つの tiff ファイルに入れる必要がありますが、これは複数ページの tiff になる可能性があるため (libtiff または leptonica がインストールされている場合)、1 つのフォントの合計トレーニング データは多くのページと多くの 10 になる場合があります。大規模な文字セット言語のトレーニングを可能にします。
画像ファイルにフォントを混在させないでください (正確には、単一の .tr ファイル内で
)。これにより、クラスタリング時に機能が削除され、認識エラーが発生します。