使用 pytesseract 和 OpenCV 对平面图屏幕截图进行 OCR

在裁剪图像的底部四分之一后，通过应用这几行来调整第二张图像的大小和更改对比度/亮度：img = cv2.imread("download.jpg")img = cv2.resize(img, (0, 0), fx=2, fy=2)img = cv2.convertScaleAbs(img, alpha=1.2, beta=-40)text = pytesseract.image_to_string(img, config='-l eng --oem 1 --psm 3')我设法得到了这个结果：总约。楼层面积 528 平方英尺。（49.0 平方米）尽管已尽一切努力确保此处包含的平面图的准确性，但门、窗、房间和任何其他项目的尺寸均为近似值，不对任何错误、遗漏或错误陈述承担任何责任。该计划仅用于@ustraative 目的，任何潜在购买者都应按此使用。所示服务、系统和设备未经测试，无法保证 a8 的可操作性或效率 Made with Metropix ©2019我没有对图像进行阈值处理，因为您的图像结构彼此不同，并且由于图像不仅是文本，因此 OTSU Thresholding 找不到正确的值。回答所有问题：Tesseract 实际上最适合灰度图像（白色背景上的黑色文本）。关于 DPI/分辨率问题，确实存在一些争论，但也有一些经验事实：DPI 值并不重要（因为相同 DPI 的文本大小可能会有所不同）。为了使 Tesseract OCR 发挥最佳效果，您的角色需要（已编辑 :) 30-33 像素（高度），小几 px 会使 Tesseract 几乎无用，而更大的字符实际上会降低准确性，尽管不会显着。（编辑：找到来源-> https://groups.google.com/forum/#!msg/tesseract-ocr/Wdh_JJwnw94/24JHDYQbBQAJ）最后，文本格式并没有真正改变（至少在你的例子中）。所以你这里的主要问题是文本大小，以及你解析整个页面的事实。如果您想要的文本行始终位于图像的底部，只需提取（切片）您的原始图像，以便您只向 Tesseract 提供相关数据，这也将使其更快。编辑：如果您还在寻找一种从您的 ocr'ed 文本中提取平方英尺的方法：text = "some place holder text 5471 square feet some more text"# store here all the possible way it can be writtensqft_list = ["sq ft", "square feet", "sqft"]extracted_value = ""for sqft in sqft_list:    if sqft in text:        start = text.index(sqft) - 1        end = start + len(sqft) + 1        while text[start - 1] != " ":            start -= 1        extracted_value = text[start:end]        breakprint(extracted_value)5471平方英尺

使用 pytesseract 和 OpenCV 对平面图屏幕截图进行 OCR

2回答