用python登录带弱图片验证码的网站
作者:可爱的黑精灵 发布时间:2023-04-28 12:22:22
标签:python,图片验证码,登录网站
目录
图片验证码
登陆
点击个人用户登录
获取图片验证码
识别并登陆
识别较复杂验证码算法
其他
上一篇介绍了使用python模拟登陆网站,但是登陆的网站都是直接输入账号及密码进行登陆,现在很多网站为了加强用户安全性和提高反爬虫机制都会有包括字符、图片、手机验证等等各式各样的验证码。图片验证码就是其中一种,而且识别难度越来越大,人为都比较难识别。本篇我们简单介绍一下使用python登陆带弱图片验证码的网站。
图片验证码
一般都通过加干扰线、粘连或扭曲等方式来增加强度。
登陆
我们选择一个政务网站(图片验证码的强度较低)。
点击个人用户登录
访问网站首页以后我们发现需要先点击个人用户登陆,且元素没有name、id登标识不好获取,所以我们直接执行里面的onClick方法
# 新建selenium浏览器对象,后面是geckodriver.exe下载后本地路径
browser = webdriver.Firefox()
url = 'http://xxx.gov.cn/'
# 浏览器访问登录页面
browser.get(url)
# 等待3s用于加载脚本文件
browser.implicitly_wait(3)
# 点击个人登陆
browser.execute_script('showpersonlogin();')
获取图片验证码
我们可以通过save_screenshot截图,然后找到验证码元素,获取元素位置然后在截图的基础上裁剪出验证码。
# 找到图片验证码元素
img = browser.find_element_by_id('imgCode')
location = img.location
size = img.size
left = location['x']
top = location['y']
right = left + size['width']
bottom = top + size['height']
# 按照验证码的长宽,切割验证码
image_obj = loginPage.crop((left, top, right, bottom))
image_obj.save('code.png')
识别并登陆
由于该网站的验证码比较简单可以直接用pytesseract模块的image_to_string方法
orcCode = pytesseract.image_to_string('code.png')
# 输入用户名
username = browser.find_element_by_id('personaccount')
username.send_keys('账号')
# 输入密码
password = browser.find_element_by_id('personpassword')
password.send_keys('密码')
# 输入验证码
code = browser.find_element_by_id('captcha1')
code.send_keys(orcCode)
# 执行登录
browser.execute_script('personlogin();')
# 关闭浏览器
# browser.quit()
识别较复杂验证码算法
网上找的算法,先将图片转为灰度图,然后进行二值化处理(将图像上的像素点的灰度值设置为0或255。如灰度大于等于阈值的像素,用255表示。否则为0。),再去噪(8邻域降噪,判断8个邻域的黑色数量个数)。
ocrImage.py:
import pytesseract
from PIL import Image
from collections import defaultdict
# 获取图片中像素点数量最多的像素
def get_threshold(image):
pixel_dict = defaultdict(int)
# 像素及该像素出现次数的字典
rows, cols = image.size
for i in range(rows):
for j in range(cols):
pixel = image.getpixel((i, j))
pixel_dict[pixel] += 1
count_max = max(pixel_dict.values()) # 获取像素出现出多的次数
pixel_dict_reverse = {v: k for k, v in pixel_dict.items()}
threshold = pixel_dict_reverse[count_max] # 获取出现次数最多的像素点
return threshold
# 按照阈值进行二值化处理
# threshold: 像素阈值
def get_bin_table(threshold):
# 获取灰度转二值的映射table
table = []
for i in range(256):
rate = 0.1 # 在threshold的适当范围内进行处理
if threshold * (1 - rate) <= i <= threshold * (1 + rate):
table.append(1)
else:
table.append(0)
return table
# 去掉二值化处理后的图片中的噪声点
def cut_noise(image):
rows, cols = image.size # 图片的宽度和高度
change_pos = [] # 记录噪声点位置
# 遍历图片中的每个点,除掉边缘
for i in range(1, rows - 1):
for j in range(1, cols - 1):
# pixel_set用来记录该店附近的黑色像素的数量
pixel_set = []
# 取该点的邻域为以该点为中心的九宫格
for m in range(i - 1, i + 2):
for n in range(j - 1, j + 2):
if image.getpixel((m, n)) != 1: # 1为白色,0位黑色
pixel_set.append(image.getpixel((m, n)))
# 如果该位置的九宫内的黑色数量小于等于4,则判断为噪声
if len(pixel_set) <= 4:
change_pos.append((i, j))
# 对相应位置进行像素修改,将噪声处的像素置为1(白色)
for pos in change_pos:
image.putpixel(pos, 1)
return image # 返回修改后的图片
# 识别图片中的数字加字母
# 传入参数为图片路径,返回结果为:识别结果
def ocr_img(img_path):
image = Image.open(img_path) # 打开图片文件
imgry = image.convert('L') # 转化为灰度图
# 获取图片中的出现次数最多的像素,即为该图片的背景
max_pixel = get_threshold(imgry)
# 将图片进行二值化处理
table = get_bin_table(threshold=max_pixel)
out = imgry.point(table, '1')
# 去掉图片中的噪声(孤立点)
out = cut_noise(out)
# 仅识别图片中的数字
# text = pytesseract.image_to_string(out, config='digits')
# 识别图片中的数字和字母
text = pytesseract.image_to_string(out)
# 去掉识别结果中的特殊字符
exclude_char_list = ' .:\\|\'\"?![],()~@#$%^&*_+-={};<>/¥'
text = ''.join([x for x in text if x not in exclude_char_list])
return text
ocrImage.ocr_img('data/0021.png')
其他
针对不同的图片验证码用的方法不尽相同,cv2模块也提供了很多图片的处理方法可以用于识别图片验证码。
如使用cv2的腐蚀和碰撞方法就可以对图片进行简单的处理。
干扰条件较多、识别难度大的则需要依靠机器学习来完成。
来源:https://www.cnblogs.com/chenjy1225/p/11775808.html
0
投稿
猜你喜欢
- 很多设计师都会遇到这样的问题。一个产品会有很多种方式去包装,其中包括很多功能和很多体验。功能越多会被认为越实用,体验越好会被认为越方便。方便
- Dreaweaver MX 2004 中增加了图片处理功能,如图片亮度和对比度的调节、图片的锐化效果等
- 优点:兼容性很好,而且俺觉得不应该有什么拦截工具可以拦截下来优点:代码非常短缺点:必须在页面点击后才会弹出demo:运行代码框<hea
- 一、选择文件夹首先导入PySimpleGUI库,并且用缩写sg来表示。import PySimpleGUI as sg# 窗口显示文本框和浏
- 前言最近空闲的时候看到了之前就关注的一个小站http://teahour.fm/,一直想把这里的音频都听一遍,可转眼间怎么着也有两年了,却什
- Laravel重定向分类如下:1、a链接跳转:<a class="btn btn-success" href=&q
- 关于asp缓存函数,类什么的,在网上可以说笔笔皆是,为啥我要不辞辛苦去写一个呢?大概看了下,各有各的优点吧,可是大部分好像不可以缓存数据额,
- 【1】MySQL中的日期时间类型MySQL中常用的几种时间类型有:date、datetime、time、year、timestamp数据类型
- 本文实例讲述了PHP编程实现多维数组按照某个键值排序的方法。分享给大家供大家参考,具体如下:实现对多维数组按照某个键值排序的两种解决方法(a
- 简洁优雅的 C 写法:int a = 1; int b = 2; int temp; temp = a;&nb
- 一、前言MySQL 中可以使用IFNULL函数判断一个值是否不为空。MySQL IFNULL 函数是 MySQL 控制流函数之一,它接受两个
- 在我们生活中的一些场合经常会有一些不该出现的敏感词,我们通常会使用*去屏蔽它,例如:尼玛 -> **,一些骂人的敏感词和一些政治敏感词
- 业务背景: 基本业务场景是这样的,请求数据(车辆vin信息)进入到接口中,需要先判断其在数据库中的状态,如果库中不存在该vin,或者该vin
- 00. 什么是 freecache?freecache 是一个用 go 语言实现的本地缓存系统(类似于 lru)。相关的 github 地址
- 前面简单介绍了Python基本运算,这里再来简单讲述一下Python字符串相关操作1. 字符串表示方法>>> "
- 需求:需要在v-html的html字符串的button中绑定点击事件,需要点击后做一些操作,必须渲染成html,但是渲染后的html里面写绑
- 导言:本文一步一步手把手教你打造一个极酷的三层分离的标准滑动门导航菜单,从思路、原理、步骤,手段可谓“无所不用其极”,即便你是菜鸟,相信你看
- 输入命令jupyter notebook --generate-config可以看到此时Jupyter Notebook的默认目录找到对应路
- 前言:Selenium 支持 Web 浏览器的自动化,它提供一套测试函数,用于支持 Web 自动化测试。函数非常灵活,能够完成界面元素定位、
- 目录序列容器序列与扁平序列不可变序列与可变序列列表推导生成器表达式Tips小结序列序列是指一组数据,按存放类型分为容器序列与扁平序列,按能否