python简单验证码识别的实现过程
作者:冰履踏青云 发布时间:2021-09-12 12:40:55
标签:python,验证码,识别
1. 环境准备
1.1 安装pillow 和 pytesseract
python模块库需要 pillow 和 pytesseract 这两个库,直接pip install 安装就好了。
pip install pillow
pip install pytesseract
1.2 安装Tesseract-OCR.exe
下载地址:ocr下载地址
建议下载最新稳定版本:
tesseract-ocr-w64-setup-v5.0.0.20190623.exe。
安装过程很简单,直接点击下一步就完事了,其间可以默认安装路径,也可以自定义安装路径,装好之后,把它的安装路径添加到环境变量中即可,如我的这样:
我的安装位置:
环境变量就这样加:
1.3 更改pytesseract.py的ocr路径
我们pip install pytesseract 之后,在python解释器安装位置包里可以找到pytesseract.py文件如下:
打开之后,更改:
至此,环境准备工作算是大功告成了。
2. 测试识别效果
ocr一直默认安装,起始就可以支持数字和英文字母识别的,接下来
我们准备一张验证码图片:
将图片,命名为captcha.png,放到程序同一目录下
import pytesseract
from PIL import Image
image = Image.open("captcha.png")
print(pytesseract.image_to_string(image))
效果:
我们再尝试一下中文识别。
在进行识别之前我们要先下载好中文拓展语言包,
语言包地址
下载需要的的语言包,如下图,红框内为中文简体语言包:
下载后将该包直接放在ocr程序安装目录的tessdata文件夹里面即可。
找一张图片测试一下:
import pytesseract
from PIL import Image
image = Image.open("00.jpg")
print(pytesseract.image_to_string(image,lang='chi_sim'))
效果:
有时候文本识别率并不高,建议图像识别前,先对图像进行灰度化和 二值化
代码示例:
import pytesseract
from PIL import Image
file = r"00.jpg"
# 先对图像进行灰度化和 二值化
image = Image.open(file)
Img = image.convert('L') # 灰度化
#自定义灰度界限,这里可以大于这个值为黑色,小于这个值为白色。threshold可根据实际情况进行调整(最大可为255)。
threshold = 180
table = []
for i in range(256):
if i < threshold:
table.append(0)
else:
table.append(1)
photo = Img.point(table, '1') #图片二值化
#保存处理好的图片
photo.save('01.jpg')
image = Image.open('01.jpg')
# 解析图片,lang='chi_sim'表示识别简体中文,默认为English
# 如果是只识别数字,可再加上参数config='--psm 6 --oem 3 -c tessedit_char_whitelist=0123456789'
content = pytesseract.image_to_string(image, lang='chi_sim')
print(content)
3. 实战案例–实现古诗文网验证码自动识别登录
import pytesseract
from PIL import Image
from selenium import webdriver
def save_captcha(path):
driver = webdriver.Chrome() # 创建浏览器对象
driver.maximize_window()
driver.implicitly_wait(10)
driver.get(url=url)
image = driver.find_element_by_id('imgCode')
image.screenshot(path)
return driver
def recognize_captcha(captcha_path):
captcha = Image.open(captcha_path) # 打开图片
grap = captcha.convert('L') # 对图片进行灰度化处理
data = grap.load() # 将图片对象加载成数据
w, h = captcha.size # 获取图片的大小(宽度,高度)
# 图片二值化处理
for x in range(w):
for y in range(h):
if data[x, y] < 140:
data[x, y] = 0
else:
data[x, y] = 255
code = pytesseract.image_to_string(grap) # 对图片进行识别
return code
def login(driver, code):
flag = True
email = '1242931802@qq.com' # 注册的古诗文网账号和密码
password = 'xxxx'
try:
driver.find_element_by_id('email').send_keys(email)
driver.find_element_by_id('pwd').send_keys(password)
driver.find_element_by_id('code').send_keys(code)
driver.implicitly_wait(10)
driver.find_element_by_id('denglu').click()
except Exception as ex:
flag = False
return flag
if __name__ == '__main__':
url = 'https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx'
captcha_path = './captcha.png'
count = 1
driver = save_captcha(captcha_path) # 获取驱动
code = recognize_captcha(captcha_path) # 获取验证码
print('识别验证码为:', code)
if login(driver, code):
driver.quit()
效果如下(有时候第一次可能识别失败,可以写个循环逻辑让它多识别几次,一般程序运行1-3次基本会识别成功):
来源:https://blog.csdn.net/weixin_44327634/article/details/117887612


猜你喜欢
- 一、背景我们项目开发人员写的文档都是markdown文件。对于其它组的同学要进行阅读不是很方便。每次编辑完markdown文件,我都是用软件
- 前言随着Python 3.8的发布,赋值表达式运算符(也称为海象运算符)也发布了。运算符使值的赋值可以传递到表达式中。这通常会使语句数减少一
- 在网页局部的布局上,需要采用大量的自适应,来满足不同长度数据、内容的合理呈现。以此保证页面不至于因为内容过多等原因,导致重叠、溢出、撑开等破
- 一,PHP脚本与动态页面。 PHP脚本是一种服务器端脚本程序,可通过嵌入等方 法与HTML文件混合,也可以类,函数封
- 用for循环和海龟绘图实现漂亮的螺旋线A.课程内容本节课通过绘制复杂的螺旋线来深入学习for循环和range()函数的用法。深入了解循环的程
- 我是一个初入互联网的视觉设计师,和以往做设计感受最大的不同就是:一个设计的最终定稿会受到多方面的挑战,有来自产品经理的,来自开发的,来自测试
- 借助zookeeper可以实现服务器的注册与发现,有需求的时候调用zookeeper来发现可用的服务器,将任务均匀分配到各个服务器上去.这样
- 本文实例讲述了Python数据结构与算法之字典树实现方法。分享给大家供大家参考,具体如下:class TrieTree(): d
- MeanShift算法Mean shift 是一种机器学习算法,并不仅仅局限于图像上的应用。关于 Mean shift 算法介绍的书和文章很
- jqueryjQueryJQUERYJqueryJQueryjquery报错jsJSJsmyeclipseMyEclipseMyeclips
- 本节讲述单选框/下拉菜单/添加文件,综合css,html和JavaScript实现的,具体详情如下所示:单选框:实现的功能是:(类似平时的性
- 前言栈(Stack)是一种运算受限的线性表。按照先进后出(FILO,First In Last Out)的原则存储数据,先进入的数据被压入栈
- 1、首先简述数据挖掘的过程第一步:数据选择可以通过业务原始数据、公开的数据集、也可通过爬虫的方式获取。第二步: 数据预处理数据极可能有噪音,
- 根据 homebrew-brew 官方的解释得知,MongoDB 不再是开源的了,并且已经从 Homebrew中移除 #43770正是由于
- python 3.10上安装pyqt5前言首先,看一下自己电脑上的python的版本,网上有太多乱七八糟的教程,啥也不说就硬教,跟着做的话就
- 如果在子类中需要父类的构造方法就需要显式地调用父类的构造方法,或者不重写父类的构造方法。子类不重写 __init__,实例化子类时,会自动调
- 本文实例讲述了Go语言计算两个经度和纬度之间距离的方法。分享给大家供大家参考。具体实现方法如下:package main &nbs
- 准备我测试使用的Python版本为2.7.10,如果你的版本是Python3.5的话,这里就不太适合了。 使用Speech API原理我们的
- 具体代码如下所示:# -*- coding: utf-8 -*-import redisimport datetime''&
- 1、监听视频滑动给 swiper 增加 @change="change",这个时间在我们完成一次滑动后执行,在 meth