5

C# で Tesseract エンジンを使用して Tessnet2 を使用しようとしています。私が Tessnet2 に与えたテスト イメージの多くは、出力が非常に悪く、ほとんど何も正しくありません。

これは、C# コンソール プロジェクト、Program.cs クラスの私のコードです。

 static void Main(string[] args)
    {
        try
        {
        Bitmap image = new Bitmap(@"C:\Users\hp\Desktop\eurotext.tif");
        var ocr = new Tesseract();

        //when I tried to add the SetVariable(...), it didn't change the output much

        ocr.Init(@"C:\Program Files (x86)\Tesseract-OCR", "eng", true);

        var result = ocr.DoOCR(image, Rectangle.Empty);
        foreach (Word word in result)
            Console.WriteLine("{0} : {1}", word.Confidence, word.Text);

        Console.ReadLine();
    }
    catch (Exception exception)
    {
        Console.WriteLine("Error");
    }
}

たとえば、これはサンプル (大きなバイナリ 300 dpi) のテスト イメージ "eurotext.tif" です。 ここに画像の説明を入力

これは、このイメージの Tessnet2 出力です。 ここに画像の説明を入力

私はこの Web サイトを使用して、Tessnet2 を使用する手順を学習しています: https://code.msdn.microsoft.com/windowsdesktop/How-to-use-Tessnet2-library-716be12f

私はこのウェブサイトを使用して、SetVariable(...) 関数を正しく使用して目的を達成しようとしましたが、運が悪く、出力に大きな違いはありませんでした: http://www.sk-spell.sk.cx /tesseract-ocr-ja

エンジンのエラーを減らすための Tesseract ガイドラインを見つけました: http://code.google.com/p/tesseract-ocr/wiki/ImproveQuality

  • 「Tesseract は、少なくとも 300 dpi の DPI を使用するテキストで最適に動作します」と表示されます。このサンプル画像は 300 dpi です

  • このサンプル画像もバイナリであり、さまざまな Web サイトで多くの人からアドバイスされているように、より良い出力が得られるはずです。

精度を高めることができる解決策をどこでも探しましたが、多くの投稿や同様の問題を抱えている人々を見つけましたが、有効な解決策はありませんでした.

この問題の原因は何ですか? どうすれば解決できますか?

私はこのトピックの初心者なので、解決策が簡単すぎる場合はご容赦ください。

ありがとう!

4

1 に答える 1