用python登录带弱图片验证码的网站
作者:可爱的黑精灵 发布时间:2023-04-28 12:22:22
标签:python,图片验证码,登录网站
目录
图片验证码
登陆
点击个人用户登录
获取图片验证码
识别并登陆
识别较复杂验证码算法
其他
上一篇介绍了使用python模拟登陆网站,但是登陆的网站都是直接输入账号及密码进行登陆,现在很多网站为了加强用户安全性和提高反爬虫机制都会有包括字符、图片、手机验证等等各式各样的验证码。图片验证码就是其中一种,而且识别难度越来越大,人为都比较难识别。本篇我们简单介绍一下使用python登陆带弱图片验证码的网站。
图片验证码
一般都通过加干扰线、粘连或扭曲等方式来增加强度。
登陆
我们选择一个政务网站(图片验证码的强度较低)。
点击个人用户登录
访问网站首页以后我们发现需要先点击个人用户登陆,且元素没有name、id登标识不好获取,所以我们直接执行里面的onClick方法
# 新建selenium浏览器对象,后面是geckodriver.exe下载后本地路径
browser = webdriver.Firefox()
url = 'http://xxx.gov.cn/'
# 浏览器访问登录页面
browser.get(url)
# 等待3s用于加载脚本文件
browser.implicitly_wait(3)
# 点击个人登陆
browser.execute_script('showpersonlogin();')
获取图片验证码
我们可以通过save_screenshot截图,然后找到验证码元素,获取元素位置然后在截图的基础上裁剪出验证码。
# 找到图片验证码元素
img = browser.find_element_by_id('imgCode')
location = img.location
size = img.size
left = location['x']
top = location['y']
right = left + size['width']
bottom = top + size['height']
# 按照验证码的长宽,切割验证码
image_obj = loginPage.crop((left, top, right, bottom))
image_obj.save('code.png')
识别并登陆
由于该网站的验证码比较简单可以直接用pytesseract模块的image_to_string方法
orcCode = pytesseract.image_to_string('code.png')
# 输入用户名
username = browser.find_element_by_id('personaccount')
username.send_keys('账号')
# 输入密码
password = browser.find_element_by_id('personpassword')
password.send_keys('密码')
# 输入验证码
code = browser.find_element_by_id('captcha1')
code.send_keys(orcCode)
# 执行登录
browser.execute_script('personlogin();')
# 关闭浏览器
# browser.quit()
识别较复杂验证码算法
网上找的算法,先将图片转为灰度图,然后进行二值化处理(将图像上的像素点的灰度值设置为0或255。如灰度大于等于阈值的像素,用255表示。否则为0。),再去噪(8邻域降噪,判断8个邻域的黑色数量个数)。
ocrImage.py:
import pytesseract
from PIL import Image
from collections import defaultdict
# 获取图片中像素点数量最多的像素
def get_threshold(image):
pixel_dict = defaultdict(int)
# 像素及该像素出现次数的字典
rows, cols = image.size
for i in range(rows):
for j in range(cols):
pixel = image.getpixel((i, j))
pixel_dict[pixel] += 1
count_max = max(pixel_dict.values()) # 获取像素出现出多的次数
pixel_dict_reverse = {v: k for k, v in pixel_dict.items()}
threshold = pixel_dict_reverse[count_max] # 获取出现次数最多的像素点
return threshold
# 按照阈值进行二值化处理
# threshold: 像素阈值
def get_bin_table(threshold):
# 获取灰度转二值的映射table
table = []
for i in range(256):
rate = 0.1 # 在threshold的适当范围内进行处理
if threshold * (1 - rate) <= i <= threshold * (1 + rate):
table.append(1)
else:
table.append(0)
return table
# 去掉二值化处理后的图片中的噪声点
def cut_noise(image):
rows, cols = image.size # 图片的宽度和高度
change_pos = [] # 记录噪声点位置
# 遍历图片中的每个点,除掉边缘
for i in range(1, rows - 1):
for j in range(1, cols - 1):
# pixel_set用来记录该店附近的黑色像素的数量
pixel_set = []
# 取该点的邻域为以该点为中心的九宫格
for m in range(i - 1, i + 2):
for n in range(j - 1, j + 2):
if image.getpixel((m, n)) != 1: # 1为白色,0位黑色
pixel_set.append(image.getpixel((m, n)))
# 如果该位置的九宫内的黑色数量小于等于4,则判断为噪声
if len(pixel_set) <= 4:
change_pos.append((i, j))
# 对相应位置进行像素修改,将噪声处的像素置为1(白色)
for pos in change_pos:
image.putpixel(pos, 1)
return image # 返回修改后的图片
# 识别图片中的数字加字母
# 传入参数为图片路径,返回结果为:识别结果
def ocr_img(img_path):
image = Image.open(img_path) # 打开图片文件
imgry = image.convert('L') # 转化为灰度图
# 获取图片中的出现次数最多的像素,即为该图片的背景
max_pixel = get_threshold(imgry)
# 将图片进行二值化处理
table = get_bin_table(threshold=max_pixel)
out = imgry.point(table, '1')
# 去掉图片中的噪声(孤立点)
out = cut_noise(out)
# 仅识别图片中的数字
# text = pytesseract.image_to_string(out, config='digits')
# 识别图片中的数字和字母
text = pytesseract.image_to_string(out)
# 去掉识别结果中的特殊字符
exclude_char_list = ' .:\\|\'\"?![],()~@#$%^&*_+-={};<>/¥'
text = ''.join([x for x in text if x not in exclude_char_list])
return text
ocrImage.ocr_img('data/0021.png')
其他
针对不同的图片验证码用的方法不尽相同,cv2模块也提供了很多图片的处理方法可以用于识别图片验证码。
如使用cv2的腐蚀和碰撞方法就可以对图片进行简单的处理。
干扰条件较多、识别难度大的则需要依靠机器学习来完成。
来源:https://www.cnblogs.com/chenjy1225/p/11775808.html
0
投稿
猜你喜欢
- 前言回调函数是我们在python编程中经常会遇到的一个问题,而想在将来某一时刻进行函数回调,可以使用call_later()函数来实现,第一
- 此文档是一位高手同事Hewei的原创实践总结,过程真是精彩,最后修复损坏数据库取得圆满效果,值得收藏的一篇好文章。前几天因为mysql数据库
- 网上大部分的免费asp程序使用的是access数据库。但是access数据库作为一个中小型的单机数据库系统,在承担访问量、数据量大的网站应用
- 最近做了wap站中的搜索结果页的改版,记录一下关于锚点链接的心得~关于锚点链接锚点链接一般用于比较长的网页,使用内部链接建立页内目录。单击目
- 这是python编写的用于测试网站访问速率的代码片段,可以输出打开某url的时间,访问100次的平均时间,最大时间和最小时间等等import
- 本文实例为大家分享了python发送邮件的具体代码,供大家参考,具体内容如下#!/usr/bin/env python # -*- codi
- 运行环境: python 3.6.0今天处于练习的目的,就用 python 写了一个百度翻译,是如何做到的呢,其实呢就是拿到接口,通过这个接
- 前言本文主要介绍了关于python中os和sys模块区别与常用方法的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看详细的介绍吧
- 一、环境配置安装 Python请确保您已经安装了 Python 3.x。可以在Python 官网下载并安装。安装所需库在命令提示符或终端中运
- 这篇论坛文章(赛迪网技术社区)详细讲解了SQL Server海量数据导入的最快方法,更多内容请参考下文:最近做某项目的数据库分析,要实现对海
- 事务处理的流程示例 database := db.DB tx, err := datab
- 前端开发中两个很不错的小技巧, CSS三角形与圆角背景. 的确, 它们都可以通过图片来实现, 但, 抛开用代码实现可以减小图片加载量不说,
- 列表是Python中最基本的数据结构,列表是最常用的Python数据类型,列表的数据项不需要具有相同的类型。列表中的每个元素都分配一个数字
- 创建表书籍模型: 书籍有书名和出版日期,一本书可能会有多个作者,一个作者也可以写多本书,所以作者和书籍的关系就是多对多的关联关系(many-
- Python的线程操作在旧版本中使用的是thread模块,在Python27和Python3中引入了threading模块,同时thread
- <% dim conn,mdbfile mdbfile=server.mappath("数据库名称.mdb") s
- Dreamweaver MX 2004新增加了表格宽度辅助线功能,让我们在编辑网页表格的时候能清楚地看到表格中各单元的宽度以及变化,很直观。
- 简介这是一篇介绍网页设计原则的文章。在互联网迅速发展的今天,各种web 2.0网站竞争激烈,你死我亡。Jini, D
- SQL Server 2005相对于SQL Server 2000做了很大的改进,许些新特性是非常实用的。本文中将通过几个具体示例进行详细的
- 也不一定,以前从来没有深入的研究过sql查询,最近买了一本T-SQL查询的书,把以前忽视的问题都记录一下 以前一直模模糊糊的把sqlserv