网络编程
位置:首页>> 网络编程>> Python编程>> python爬虫解决验证码的思路及示例

python爬虫解决验证码的思路及示例

作者:xiaozhanger  发布时间:2021-07-21 19:23:04 

标签:python,爬虫,验证码

如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。

法1:

用session:


mysession = requests.Session()
login_url = 'http://xxx.com'
checkcode_url='http://yyy.com'
html = mysession.get(login_url,timeout=60*4)
#....balabala解析操作....
checkcode = mysession.get(checkcode_url,timeout=60*4)
with open('checkcode.png','wb') as f:
 f.write(checkcode.content)

#接下来balabala对图像操作,可以用python的相关库(识别率低,教务网的验证码都够呛),也可以用云速等第三方验证码识别网站提供的有偿服务(识别度较高)

#再接下来构造表单数据balabala

法2:

用cookie:


#绑定cookie
checkcode_url='http://yyy.com'
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)

#先读取验证码的url
picture = opener.open(checkcode_url).read()

#balabala图像处理

# 生成post数据
data = urllib.urlencode(postData)
# 构造request请求
request = urllib2.Request(PostUrl, data, headers)
# 利用之前存有cookie的opener登录页面
try:
 response = opener.open(request)
 result = response.read()
except urllib2.HTTPError, e:
 print e.code

法3:

selenium+手动构造cookie: 该方法无需识别验证码,本人尚未尝试。

webdriver 操作 cookie 的方法有:

  • get_cookies() 获得所有 cookie 信息

  • get_cookie(name) 返回特定 name 有 cookie 信息

  • add_cookie(cookie_dict) 添加 cookie,必须有 name 和 value 值

  • delete_cookie(name) 删除特定(部分)的 cookie 信息

  • delete_all_cookies() 删除所有 cookie 信息


....
#第一次访问 xxx 网站
driver.get("http://xxx.com")
#将用户名密码写入浏览器 cookie
driver.add_cookie({'name':'username','value':'username'})
driver.add_cookie({'name':'password','value':'password'})
#再次访问 xxx 网站,将会自动登录
driver.get("http://xxx.com")
time.sleep(5)
....
driver.quit()

这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。

来源:https://blog.csdn.net/xiaozhanger/article/details/78034154

0
投稿

猜你喜欢

  • 市场上很多火车票抢票软件大家应该非常熟悉,但很少有人研究具体是怎么实现的,所以觉得很神秘,其实很简单。下面使用Python模拟抢票程序,给大
  • 本文实例为大家分享了PyQt5实现简单数据标注工具的具体代码,分类用,供大家参考,具体内容如下第一个最大的图片是当前要标注的类别,接下来的两
  • 一、默认参数python为了简化函数的调用,提供了默认参数机制:def pow(x, n = 2):r = 1 while n > 0
  • 原理形态学是图像处理中常见的名词,图像处理的形态学基本属于数学形态学的范畴,是一门建立在格论和拓扑学基础上的图像分析学科。黑帽运算是结合了腐
  • 主要我是要解决一下几个问题: 1.  apply和call的区别在哪里 2.  apply的其他巧妙
  • 像素是计算机视觉中图像的重要属性。它们是表示图像 * 定空间中光的颜色强度的数值,是图像中数据的最小单位。图像中的像素总数是高度、宽度和通道的
  •     在网上游荡,看着别人的精彩主页难免心里痒痒的,但自己精心布置的家(个人主页),如果在不同的浏览器中呈现
  • asp之家注:学习javascript(js),免不了要用到打开新窗口,方法很多,总的来说是使用window.open。不同与HTML中的t
  • 介绍Addit 是一个Python模块,除了提供标准的字典语法外,Addit 生成的字典的值既可以使用属性来获取,也可以使用属性进行设置。这
  • 本文实例讲述了python单向循环链表原理与实现方法。分享给大家供大家参考,具体如下:单向循环链表单链表的一个变形是单向循环链表,链表中最后
  • 其实网上已经有很多这样的类了,不过出于练手的目的还是自己仿照着写了一个。下面的代码放在一个名为UploadFile.class.php文件内
  • 示例1:文件打包,上传与校验我们时常做一些文件包分发的工作,实施步骤一般是先压缩打包,在批量上传至目标服务器,最后做一致性校验,本案例通过p
  • python刷CSDN访问量import requestsimport reimport timepayload = ""
  • 一、insert语句insert用于向表中输入数据,其具体的语法结构如下。INSERT INTO 表名称 VALUES (值1, 值2,..
  • 在用爬虫爬取网站数据时,有些站点的一些关键数据的获取需要使用账号登录,这里可以使用requests发送登录请求,并用Session对象来自动
  • 与django路由有区别他们都有根路由,但是不一样。django的根路由:urlpatterns = [  path('l
  • 本文实例讲述了js实现简单的联动菜单效果。分享给大家供大家参考。具体如下:这是一个最简单的js联动菜单代码,在DW里可以自动生成,不想在DW
  • 这篇文章主要介绍了Python读取表格类型文件代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋
  • 首先创建一个新的python3记录,之后在开始位置输入以下语句并执行:import plotlyimport plotly.offline
  • 一、题目描述求解用户登陆信息表中,每个用户连续登陆平台的天数,连续登陆基础为汇总日期必须登陆,表中每天只有一条用户登陆数据(计算中不涉及天内
手机版 网络编程 asp之家 www.aspxhome.com