c# - Tesseract OCR エンジンは、自動生成された画像からテキストを読み取ることはできませんが、MS ペイントのカットからは読み取ることができます

Question

私は Tesseract OCR エンジンに .NET ラッパーを使用しています。PNG の大きなドキュメントがあります。MS ペイントで画像の一部を切り取り、それをエンジンにフィードすると、機能します。しかし、コードで実行すると、エンジンは画像内のテキストを認識できません。画像は同じように見え、プロパティはそれほどずれていないように見えます。だから私は少し混乱しています。

これが2つの画像です。MSペイントより：

ここに画像の説明を入力

コードから:

ここに画像の説明を入力

これは、MS ペイントイメージから取得したものです。

ここに画像の説明を入力

そしてコードを通して：

ここに画像の説明を入力

それらは非常に似ているので、なぜ 2 番目のテキストを認識できないのかわかりません。以下は、私が画像を生成する方法です。

public Bitmap CropImage(Bitmap source, Rectangle section)
    {
        Bitmap bmp = new Bitmap(section.Width, section.Height);
        Graphics g = Graphics.FromImage(bmp);
        g.DrawImage(source, 0, 0, section, GraphicsUnit.Pixel);

        return bmp;
    }

    private void Form1_Load(object sender, EventArgs e)
    {
        Bitmap source = new Bitmap(test);
        Rectangle section = new Rectangle(new Point(78, 65), new Size(800, 50));
        Bitmap CroppedImage = CropImage(source, section);
        CroppedImage.Save(@"c:\users\user\desktop\test34.png", System.Drawing.Imaging.ImageFormat.Png);

        this.pictureBox1.Image = CroppedImage;
    }

c# - Tesseract OCR エンジンは、自動生成された画像からテキストを読み取ることはできませんが、MS ペイントのカットからは読み取ることができます

1 に答える 1

Related

Reference