一文学会使用OpenCV构建文档扫描仪
作者:woshicver 发布时间:2023-08-02 12:35:05
介绍
在本文中,我们将使用 OpenCV 库来开发 Python 文档扫描器。
OpenCV 的简要概述: OpenCV 是一个开源库,用于各种计算机语言的图像处理,包括 Python、C++ 等。它可用于检测照片(例如使用人脸检测系统的人脸) 。
要了解更多关于 OpenCV 的信息,你可以在此处参考他们的官方文档:https://pypi.org/project/opencv-python/
我们的软件应该能够正确对齐文档,检测捕获图像的边界,提升文档的质量,并最终提供更好的图像作为输出。本质上,我们将输入一个文档,即用相机拍摄的未经编辑的图像。OpenCV 将处理该图像。
我们的基本工作流程是:
形态学运算
边缘和轮廓检测
识别角点
转变视角
执行形态学操作
形态学:是一系列图像处理程序和算法,根据图像的高度和宽度来处理图片。最重要的是它们的大小,而不是它们的相对像素值排序。
kernel = np.ones((5,5),np.uint8)
img = cv2.morphologyEx(img, cv2.MORPH_CLOSE, kernel, iterations= 3)
我们可以使用morphologyEx() 函数执行操作。Morphology 中的“close”操作与Erosion相同,在此之前是Dilation过程。
我们将创建一个空白文档,因为在处理边缘时图片里的内容会妨碍你,我们不想冒险删除它们。
从捕获的图像中删除背景
照片中非我们拍摄对象的部分也必须删除。与裁剪图像类似,我们将只专注于维护图像所需的部分。可以使用GrabCut库。
GrabCut 在接收到输入图片及其边界后,剔除边界外的所有元素。
为了利用 GrabCut 来识别背景,我们还可以为用户提供手动设置文档边框的选项。
不过,目前,GrabCut 将能够通过从图像的每个角落取 20 个像素作为背景来自动识别前景。
mask = np.zeros(img.shape[:2],np.uint8)
bgdModel = np.zeros((1,65),np.float64)
fgdModel = np.zeros((1,65),np.float64)
rect = (20,20,img.shape[1]-20,img.shape[0]-20)
cv2.grabCut(img,mask,rect,bgdModel,fgdModel,5,cv2.GC_INIT_WITH_RECT)
mask2 = np.where((mask==2)|(mask==0),0,1).astype('uint8')
img = img*mask2[:,:,np.newaxis]
这里的“rect”变量表示我们愿意分离的边界。你可能会遇到部分背景进入线条内部的情况,但这是可以接受的。我们的目标是对象的任何部分都不应超出边界。
边缘和轮廓检测
我们目前拥有一份与原始文件大小相同的空白文件。同样,我们将进行边缘检测。我们将为此使用Canny函数。
为了清理文档的噪声,我们还使用了高斯模糊。
(注意:Canny 函数仅适用于灰度图像,因此如果图像尚不存在,则将图像转换为灰度)。
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
gray = cv2.GaussianBlur(gray, (11, 11), 0)
# Edge Detection.
canny = cv2.Canny(gray, 0, 200)
canny = cv2.dilate(canny, cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (5, 5)))
我们在最后一行放大了图像。
在此之后,我们可以继续进行轮廓检测:
我们只会记录最大的轮廓并在一个新的空白文档上进行交互。
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
gray = cv2.GaussianBlur(gray, (11, 11), 0)
# Edge Detection.
canny = cv2.Canny(gray, 0, 200)
canny = cv2.dilate(canny, cv2.getStructuringElement(cv2.MORPH_ELLIPSE, (5, 5)))
识别角点
我们将使用已经注意到的四个角对齐纸张。使用“ Douglas-Peucker ”方法和approxPolyDp()函数。
con = np.zeros_like(img)
# Loop over the contours.
for c in page:
# Approximate the contour.
epsilon = 0.02 * cv2.arcLength(c, True)
corners = cv2.approxPolyDP(c, epsilon, True)
# If our approximated contour has four points
if len(corners) == 4:
break
cv2.drawContours(con, c, -1, (0, 255, 255), 3)
cv2.drawContours(con, corners, -1, (0, 255, 0), 10)
corners = sorted(np.concatenate(corners).tolist())
for index, c in enumerate(corners):
character = chr(65 + index)
cv2.putText(con, character, tuple(c), cv2.FONT_HERSHEY_SIMPLEX, 1, (255, 0, 0), 1, cv2.LINE_AA)
标准化四点定位
def order_points(pts):
rect = np.zeros((4, 2), dtype='float32')
pts = np.array(pts)
s = pts.sum(axis=1)
rect[0] = pts[np.argmin(s)]
rect[2] = pts[np.argmax(s)]
diff = np.diff(pts, axis=1)
rect[1] = pts[np.argmin(diff)]
rect[3] = pts[np.argmax(diff)]
return rect.astype('int').tolist()
寻找目的地坐标:
最后一组坐标可以改变图像的视角。如果从通常的视角以一定角度拍摄,这将很有帮助。
(tl, tr, br, bl) = pts
# Finding the maximum width.
widthA = np.sqrt(((br[0] - bl[0]) ** 2) + ((br[1] - bl[1]) ** 2))
widthB = np.sqrt(((tr[0] - tl[0]) ** 2) + ((tr[1] - tl[1]) ** 2))
maxWidth = max(int(widthA), int(widthB))
# Finding the maximum height.
heightA = np.sqrt(((tr[0] - br[0]) ** 2) + ((tr[1] - br[1]) ** 2))
heightB = np.sqrt(((tl[0] - bl[0]) ** 2) + ((tl[1] - bl[1]) ** 2))
maxHeight = max(int(heightA), int(heightB))
# Final destination co-ordinates.
destination_corners = [[0, 0], [maxWidth, 0], [maxWidth, maxHeight], [0, maxHeight]]
透视变换
源照片的坐标现在必须与我们事先发现的目标坐标对齐。完成此阶段后,图像看起来就像是从纸张的正上方拍摄的一样。
# Getting the homography.
M = cv2.getPerspectiveTransform(np.float32(corners), np.float32(destination_corners))
final = cv2.warpPerspective(orig_img, M, (destination_corners[2][0], destination_corners[2][1]), flags=cv2.INTER_LINEAR)
现在很明显,以一定角度拍摄的图像现在已经被完美地扫描出来了。
测试观察
已经在许多不同方向的照片上测试了这些代码,你也可以这样做。在每个样例上,它都表现出色。
即使图像的背景是白色(即类似于页面本身颜色的颜色),GrabCut 也有效且清晰地定义了边界线。
结论
本教程教我们如何使用 OpenCV 快速轻松地创建文档扫描仪。
总结:
上传图片后,执行了:
生成与原始文件高度和宽度相同的空白文档的形态学操作
从图像中删除了背景。
检测到图像中的轮廓和边界。
检测到的图像角点,以矩形的形式
变换图像的透视图(如果有)
此文档扫描仪的一些限制: 即使文档的一部分在捕获时位于边界框架之外,该项目也应正常运行。但它也会导致不准确的透视变换。
广泛使用的文档扫描仪应用程序采用了几种深度学习算法,因为它们的结果更加彻底和准确。
来源:https://blog.csdn.net/woshicver/article/details/127644348
猜你喜欢
- 背景当前很多文章尝试过最优分箱,python上也有cut等方法进行等宽分箱。为了方便日后输出结果以及分箱要求。做一个简单的轮子以供大家日后使
- 大家都出书,我也很幸运的有了这本书,不过一本书的好与坏,错与对都是在于一个人的理解,web标准这个东西主要还是大家理解,理解的深
- 1 动机greenlet 包是 Stackless 的副产品,其将微线程称为 “tasklet” 。tasklet运
- 这篇文章主要给大家介绍了利用Thinkphp结合ajaxFileUpload实现异步图片传输的方法,文中给出了详细的示例代码,对大家具有一定
- 在我们的网站建设中,为网站打造一个契合网站主题的个性化标志则是必需的,这直接关系到能否成功地塑造网站的品牌。这从某些角度看仍在网站推广的范畴
- 这篇文章主要介绍了Python for循环搭配else常见问题解决,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价
- 前言通过pandas的使用,我们经常要交互式地展示表格(dataframe)、分析表格。而表格的格式就显得尤为重要了,因为大部分时候如果我们
- 先看一个实例这是我用asp写的一个搜索一个字符串里面第一张图片地址的函数(当然你可以将values那里换一个得到所有图片地址)functio
- Urllib1. Urllib.request.urlopen().read().decode()返回一个二进制的对象,对这个对象进行rea
- 本文实例讲述了Python发送邮件功能。分享给大家供大家参考,具体如下:这里以QQ邮箱为例说明登录邮箱点账号开启smtp开启时会要求你发送一
- #!/usr/bin/python #-*- encoding: utf-8 -*- import types class NotInteg
- 如下所示:#!/usr/bin/env python# -*- coding:utf-8 -*-import datetimetime_de
- 知乎上有人说,Python3.6以后字典有序且更高效了。群里有同学推荐了这篇文章给我看,并咨询字典排序的问题。大致浏览了一下,我当即表示不能
- 1、基于字典的创建规划问题上篇中介绍了使用 LpVariable 对逐一定义每个决策变量,设定名称、类型和上下界,类似地对约束条件也需要逐一
- 一、开头匹配从字符串开头开始匹配返回匹配对象;如果找不到匹配,则为Noneimport reprint(re.match('飞兔小哥
- 保护你的ASP页面的两种办法 有时候你只想让人们从你的站点来访问你的某些页面, 而不允许他们从其它站点的非法链接中到达这些页面。在你想保护的
- 概述今天我们要来做一个进阶的花分类问题. 不同于之前做过的鸢尾花, 这次我们会分析 102 中不同的花. 是不是很上头呀.预处理导包常规操作
- 前言深度学习领域,常常用python写代码,而且是建立在一些开源框架之上,如pytorch。在实际的项目部署中,也有用conda环境和pyt
- 检测自己当前系统环境中python是否已经安装该module,若未安装请自行安装检测自己的pycharm使用的环境变量是否与当前环境一致若不
- 本文实例讲述了Python正则替换字符串函数re.sub用法。分享给大家供大家参考,具体如下:python re.sub属于python正则