C# で Tesseract エンジンを使用して Tessnet2 を使用しようとしています。私が Tessnet2 に与えたテスト イメージの多くは、出力が非常に悪く、ほとんど何も正しくありません。
これは、C# コンソール プロジェクト、Program.cs クラスの私のコードです。
static void Main(string[] args)
{
try
{
Bitmap image = new Bitmap(@"C:\Users\hp\Desktop\eurotext.tif");
var ocr = new Tesseract();
//when I tried to add the SetVariable(...), it didn't change the output much
ocr.Init(@"C:\Program Files (x86)\Tesseract-OCR", "eng", true);
var result = ocr.DoOCR(image, Rectangle.Empty);
foreach (Word word in result)
Console.WriteLine("{0} : {1}", word.Confidence, word.Text);
Console.ReadLine();
}
catch (Exception exception)
{
Console.WriteLine("Error");
}
}
たとえば、これはサンプル (大きなバイナリ 300 dpi) のテスト イメージ "eurotext.tif" です。
これは、このイメージの Tessnet2 出力です。
私はこの Web サイトを使用して、Tessnet2 を使用する手順を学習しています: https://code.msdn.microsoft.com/windowsdesktop/How-to-use-Tessnet2-library-716be12f
私はこのウェブサイトを使用して、SetVariable(...) 関数を正しく使用して目的を達成しようとしましたが、運が悪く、出力に大きな違いはありませんでした: http://www.sk-spell.sk.cx /tesseract-ocr-ja
エンジンのエラーを減らすための Tesseract ガイドラインを見つけました: http://code.google.com/p/tesseract-ocr/wiki/ImproveQuality
「Tesseract は、少なくとも 300 dpi の DPI を使用するテキストで最適に動作します」と表示されます。このサンプル画像は 300 dpi です
このサンプル画像もバイナリであり、さまざまな Web サイトで多くの人からアドバイスされているように、より良い出力が得られるはずです。
精度を高めることができる解決策をどこでも探しましたが、多くの投稿や同様の問題を抱えている人々を見つけましたが、有効な解決策はありませんでした.
この問題の原因は何ですか? どうすれば解決できますか?
私はこのトピックの初心者なので、解決策が簡単すぎる場合はご容赦ください。
ありがとう!