如何提取答题纸中的书面数字(图片)

我试过 tesseract 但它只适用于纯文本文档,任何人都可以建议我该怎么做吗?


在此处输入图像描述 这是我的 vb.net 代码


Dim pic = New Bitmap(OpenFileDialog1.FileName)

 Dim ocr = New TesseractEngine("./dataset", "eng", EngineMode.TesseractAndCube)

 Dim page = ocr.Process(pic)

 TextBox1.Text = page.GetText


慕姐8265434
浏览 61回答 1
1回答

喵喔喔

看起来你的答题纸结构合理。我会专注于为每个答案提取子图像,然后在该图像上以单字符模式运行 Tesseract。我不确定你如何在你使用的任何 Tesseract 包装器中获得单字符模式,但通过命令行它是参数:--psm 10。要提取每个图像,我会使用 OpenCV(尝试Emgu for .NET)。您可能需要先应用透视环绕以获得正方形图像。然后您可以使用一个简单的滑动窗口来获取每个子图像。我不确定在答案被划掉的情况下这将如何执行。
打开App,查看更多内容
随时随地看视频慕课网APP