python网络爬虫实现发送短信验证码的方法
作者:jgdabc 发布时间:2021-03-23 23:18:54
前言:今天要总结的是如何用程序来实现短信发送功能。但是呢,可能需要我们调用一些api接口,我会详细介绍。都是自己学到的,害怕忘记,所以要总结一下,让写博客成为一种坚持的信仰。废话不多说,我们开始吧!
网络爬虫实现发送短信验证码
在实现我们目标的功能之前,我们要有自己的思路,否则你没有方向,又如何实现自己的代码功能呢?
我们要发送短信,那么我们其实是需要分析的。我们可以去分析一个可以发送短信的网站页面。
我们来到这里如下:
可以看到这是一个注册界面,我们在注册时会被要求需要填写手机号码的·,其实还有一栏验证码识别,像这里打开没有,那你就填写几个号码,发送,多刷新几次,就可以了。
不为别人添麻烦,我填写自己的号码。
多次刷新会出现,不过要填写不同的手机号码。你们懂的,我们要看到这个有验证码的界面。
我们打开chrome谷歌抓包工具,也就是邮件检查即可。我们点击network直接进行抓包,记得在抓包前最好清除下面出现的一切包。我们要点击验证码,让网页做出反应,然后同步一下,进行抓包。
当我们填写手机号以后,我们只要点击那个验证码,然后进行抓包如下
看到没有,其实点击同步瞬间只有一个数据包的,在你做其他的动作时,可能会出现其他的数据包,但是与此无关。
我们直接点进去看
我们看这个url
https://uc.creditcard.ecitic.com/citiccard/ucweb/newvalicode.do?time=1613969346256
我们打开这个url看看庐山真面目
留意观察这个time参数,很明显是一个时间戳参数
时间戳参数又是什么概念呢?这里有必要介绍一下
时间戳 : 格林威治时间1970年1月0点0分0秒到目前为止
秒级时间戳:10数字
毫秒级时间戳 :13位数字
微秒级时间戳:16位数字
可以看到这个time参数属于毫秒级别的时间戳的。
我们访问这个见面,每次刷新都会有不同的验证码,返回当前的时间。如果我们要获取当前的验证码,我们需要url,前面的参数都一样,只有time,我们需要获取time时间。如何获取呢。
python中有一个time库,我们导入,来看如何使用。
下面展示一些 内联代码片
。
import time
def get_time() :
" 获取当前的时间戳"
now_time =str(int(time.time()*1000))#获取毫秒级的时间戳
print('当前的时间戳',now_time)
return now_time
get_time()
来看运行结果
我们目前可以这样去做
我们把这个获取到的时间戳参数加入到url中,我们可以实现动态的获取,每次要要获取这个二维码时就需要指定当前的时间time参数,那我们完全可以这样来构造这个url。我们用一个变量来接收获取的时间戳,然后以字符串的形式加入到time后面。
下面展示一些 内联代码片
。
import time
def get_time() :
" 获取当前的时间戳"
now_time =str(int(time.time()*1000))#获取毫秒级的时间戳
print('当前的时间戳',now_time)
return now_time
time_one = get_time()
img_url = 'https://uc.creditcard.ecitic.com/citiccard/ucweb/newvalicode.do?time='+time_one
print(img_url)
我们来看是否可以获取到相应正确的url
我们点入那个蓝色的链接,来看有没有获取到这个验证码图片。
测试证明我们完全是对的。
下一步我们要做的是实现代码的访问,获取并保存这个验证码。为什么保存,我们应该知道这点知识。
看这三个提交栏,很明显是一个要提交表单的。提交那就需要post,而post请求呢,就是要提交我们的数据,及手机号码和图形验证码。
当我们把数据提交上去以后,我们在手机上就会收到短信验证码。我们以此来实现发送短信验证码的功能。
我们来保存图片验证码
下面展示一些 内联代码片
。
import time
import requests
def get_time() :
" 获取当前的时间戳"
now_time =str(int(time.time()*1000))#获取毫秒级的时间戳
print('当前的时间戳',now_time)
return now_time
time_one = get_time()
img_url = 'https://uc.creditcard.ecitic.com/citiccard/ucweb/newvalicode.do?time='+time_one
print(img_url)
headers = {
'User-Agent' :'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
}
response = requests.get(url=img_url,headers = headers)
img_data = response.content
with open('yzm.jpg',mode = 'wb') as file :
file.write(img_data)
可以看到在代码编辑器右边已经出现了保存的图片。
下一步我们继续来分析这个手机号码的数据和图片验证码的数据在哪里传入,又是如何实现。
我们输入一个手机号码,然后输入图片验证码,然后点击免费获取。此时再次进行抓包,抓包的方法与上文的第一次抓包方法相同。
我们来看会出现什么样的包。
蓝色部分的就是我们寻找的目标包。然后我们如何去做?点击打开查看相应的代码。
看到没有post请求,是因该提交表单数据的。我们看看下面的表单数据
这里你会发现有一点不同电话号码是直接的数字,图片验证码就需要你来处理了,因为我们上文保存的验证码是图片,你如何识别到这图片验证码里面额数据,来进行传入呢?这里我们还需要一个网站。
超级鹰,是用来识别验证码的,其实我们还是调用这个接口。
我们点击开发文档,我们是用Python写的代码。所以我们点击python的图标,来这里来查看我们需要的。
在下面找到超级鹰图像识别,然后点击下载。把里面的api接口的py文件导入到你的python编辑器。我这里是用Pycharm写的。所以直接将解压出来的Python文件拖入pycharm。
下面是里面的部分代码。
这里面做了小小的修改。我们直接来看这段代码写了什么。
我来告诉大家原始的代码有问题,很低级的问题。
#!/usr/bin/env python
# coding:utf-8
import requests
from hashlib import md5
class Chaojiying_Client(object):
def __init__(self, username, password, soft_id):
self.username = username
password = password.encode('utf8')
self.password = md5(password).hexdigest()
self.soft_id = soft_id
self.base_params = {
'user': self.username,
'pass2': self.password,
'softid': self.soft_id,
}
self.headers = {
'Connection': 'Keep-Alive',
'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
}
def PostPic(self, im, codetype):
"""
im: 图片字节
codetype: 题目类型 参考 http://www.chaojiying.com/price.html
"""
params = {
'codetype': codetype,
}
params.update(self.base_params)
files = {'userfile': ('ccc.jpg', im)}
r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files, headers=self.headers)
return r.json()
def ReportError(self, im_id):
"""
im_id:报错题目的图片ID
"""
params = {
'id': im_id,
}
params.update(self.base_params)
r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
return r.json()
if __name__ == '__main__':
chaojiying = Chaojiying_Client('超级鹰用户名', '超级鹰用户名的密码', '96001')#用户中心>>软件ID 生成一个替换 96001
im = open('a.jpg', 'rb').read()#本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
print chaojiying.PostPic(im, 1902)#1902 验证码类型 官方网站>>价格体系 3.4+版 print 后要加()
上面这个是他的原始接口代码。就很离谱。分块来分析。
def __init__(self, username, password, soft_id):
self.username = username
password = password.encode('utf8')#没有缩进
self.password = md5(password).hexdigest()
self.soft_id = soft_id
.......
.......
这块的错误在哪呢?我这里特意表明突出,上面的原始代码直接沾到这里并不突出,但是你用编辑器打开会有问题的。
if __name__ == '__main__':
chaojiying = Chaojiying_Client('超级鹰用户名', '超级鹰用户名的密码', '96001')#用户中心>>软件ID 生成一个替换 96001
im = open('a.jpg', 'rb').read()#本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
print chaojiying.PostPic(im, 1902)#print没有加()#1902 验证码类型 官方网站>>价格体系 3.#4+版 print 后要加()
还有一处,在这里,代码格式都没有写对,我这里指出,读者应该可以发现。这里介意读者可以去平台下载这个接口,自己去修改。
好,且不在谈这些,我们继续。我们还是修改部分代码。
def ReportError(self, im_id):
"""
im_id:报错题目的图片ID
"""
params = {
'id': im_id,
}
params.update(self.base_params)
r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
return r.json()
if __name__ == '__main__':
chaojiying = Chaojiying_Client('超级鹰用户名', '超级鹰用户名的密码', '96001')#用户中心>>软件ID 生成一个替换 96001
im = open('a.jpg', 'rb').read()#本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
print chaojiying.PostPic(im, 1902)#这是原始的代码#1902 验证码类型 官方网站>>价格体系 3.4+版 print 后要加()
我们可以在这内部写一个方法,我们待会要调用这个代码接口时,直接调用这个方法。
注意我们在类里面添加这样一部分代码,就是写一个方法
def run(self):
chaojiying = Chaojiying_Client(constant.USER_NAME, constant.PASSWORD,
913137) # 用户中心>>软件ID 生成一个替换 96001
im = open('yzm.jpg', 'rb').read() # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
result = chaojiying.PostPic(im, 1004) # 1902 验证码类型 官方网站>>价格体系 3.4+版 print 后要加()
return result['pic_str']
注意分析这个接口代码,里面 chaojiying = Chaojiying_Client(constant.USER_NAME, constant.PASSWORD,913137)
在注释里面其实说的已经很清楚了,这里的constant代表我们要导入的py文件,里面包含你的用户名,密码,以及软件id。
im = open(‘yzm.jpg', ‘rb').read()
打开你保存的验证码文件,上面我们已经保存过。result = chaojiying.PostPic(im, 1004)
1004代表你的验证码类型。
用户名和密码你需要注册一下。那么软件id和验证码类型你该如何确定呢?
这是主页,请点击价格体系
在下面你可以来判断你的验证码类型了
我们这里需要登录进入用户中心
进入如下界面
往下拉进入软件id
进入后点击生成一个软件id,软件名称和软件说明可以随便填写
这样我们就可以获得一个软件id 。
这个constant如何编写,很简单,建立一个py文件,里面写入
USER_NAME=' …'
PASSWORD='… '
然后保存即可。导入py文件到当前路劲,然后import即可。
现在我们来看完整的代码
接口完整修改后的代码
import requests
from hashlib import md5
import constant
import constant
class Chaojiying_Client(object):
def __init__(self, username, password, soft_id):
self.username = username
self.password = md5(password.encode('utf8')).hexdigest()
self.soft_id = soft_id
self.base_params = {
'user': self.username,
'pass2': self.password,
'softid': self.soft_id,
}
self.headers = {
'Connection': 'Keep-Alive',
'User-Agent': 'Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0)',
}
def PostPic(self, im, codetype):
"""
im: 图片字节
codetype: 题目类型 参考 http://www.chaojiying.com/price.html
"""
params = {
'codetype': codetype,
}
params.update(self.base_params)
files = {'userfile': ('ccc.jpg', im)}
r = requests.post('http://upload.chaojiying.net/Upload/Processing.php', data=params, files=files,
headers=self.headers)
return r.json()
def ReportError(self, im_id):
"""
im_id:报错题目的图片ID
"""
params = {
'id': im_id,
}
params.update(self.base_params)
r = requests.post('http://upload.chaojiying.net/Upload/ReportError.php', data=params, headers=self.headers)
return r.json()
def run(self):
chaojiying = Chaojiying_Client(constant.USER_NAME, constant.PASSWORD,
913137) # 用户中心>>软件ID 生成一个替换 96001
im = open('yzm.jpg', 'rb').read() # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
result = chaojiying.PostPic(im, 1004) # 1902 验证码类型 官方网站>>价格体系 3.4+版 print 后要加()
return result['pic_str']
if __name__ == '__main__':
chaojiying = Chaojiying_Client(constant.USER_NAME, constant.PASSWORD, 913137) # 用户中心>>软件ID 生成一个替换 96001
im = open('yzm.jpg', 'rb').read() # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//
result = chaojiying.PostPic(im, 1004)
print(chaojiying.PostPic(im,1004))# 1902 验证码类型 官方网站>>价格体系 3.4+版 print 后要加()
主文件代码,从这里执行
import time
import requests
from chaojiying import Chaojiying_Client
import constant
def get_time() :
" 获取当前的时间戳"
now_time =str(int(time.time()*1000))#获取毫秒级的时间戳
print('当前的时间戳',now_time)
return now_time
time_one = get_time()
img_url = 'https://uc.creditcard.ecitic.com/citiccard/ucweb/newvalicode.do?time='+time_one
print(img_url)
headers = {
'User-Agent' :'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'
}
response = requests.get(url=img_url,headers = headers)
img_data = response.content
with open('yzm.jpg',mode = 'wb') as file :
file.write(img_data)
print(response)
#验证码识别
code = Chaojiying_Client(constant.USER_NAME,constant.PASSWORD,913137).run()
print('识别出来的验证码为',code)
#请求保证同一个用户
cookiejar = response.cookies
cookies = cookiejar.get_dict()
print(cookies)
data = {
'phone' :19745678397,
'imgValidCode' : code,
}
time_two = get_time()
code_url = 'https://uc.creditcard.ecitic.com/citiccard/ucweb/getsms.do?×tamp'+time_two
requests_two = requests.post(url=code_url,data= data,headers=headers,cookies=cookies)
print(requests_two.json())
我们来看运行结果
ok,短信发送成功
需要注意的是,如果你发送多次的话,那么会出现提醒你短信发送频率过高的提示。这是服务器的响应。
我们总结一下该程序实现了发送验证码的功能,如果你需要实现发送你想要的文本,那么你需要调用其它的接口。别的就不多说了,毕竟爬虫也需要讲武德。
来源:https://blog.csdn.net/jgdabc/article/details/113932667
猜你喜欢
- 本篇文章介绍了Javascript监控前端相关数据,项目开发完成外发后,没有一个监控系统,我们很难了解到发布出去的代码在用户机器上执行是否正
- 年前在重写淘宝旺铺里的会员卡脚本的时候,无意中发现了一个有趣的事情。代码类似:var associative_array = new Arr
- 搞不清楚在闭包(closures)中Python是怎样绑定变量的看这个例子:>>> def create_multipli
- 前言本人在学习go-micro中,用到Makefile,本人之前用过Makefile,但是不知道为什么这会就不能用了,我找了好多教程都没能解
- 需求描述:在公司老旧系统里,数据库表很多,但是在设计之初并没有建立好关系图,导致新人刚入职,面对N个库,每个库几百张表,很不方便。例如:公司
- 解析url用的类库:python2版本: from urlparse import urlparseimport urllibpython3
- 工欲善其事,必先利其器。作为更专业的前端工程师,我们需要强劲的IDE协助我们写出规范、美观、漂亮的JavaScript代码,首先要作的就是对
- 这篇文章主要介绍了python 利用jinja2模板生成html代码实例,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考
- 受到领导的嘱托,接手了一个java项目,要进行重构,同时了项目的整体建设要满足信创的要求。那么首先就要满足两点:1,使用国产数据库达梦8替换
- 1、Python的min函数返回列表中的最小的项。2、如何返回列表中最小的项的索引?def indexofMin(arr):
- 前言大家好,我是辣条今天给大家带来几个实用的python脚本工具,原因不难猜这段时间我亲爱的女朋友呢给我整出点小花样,差点让我电脑GG了。我
- 开始使用MySQL 为关系型数据库(Relational Database Management System),一个关系型数据库由一个或数
- Multiplexer根据URL将请求路由给指定的Handler。Handler用于处理请求并给予响应。更严格地说,用来读取请求体、并将请求
- 一、实验目的:1.掌握Python中柱状图、条形图绘图函数的使用2.利用上述绘图函数实现数据可视化二、实验内容:1.练习python中柱状图
- 目录一、网址分析二、代码编写三、遇到的问题1. 获取评论的时候也将子评论爬虫进去了。2. 获取全部评论数,直接通过 requests 获取不
- 就在前几天还是二十多度的舒适温度,今天一下子就变成了个位数,小编已经感受到冬天寒风的无情了。之前对获取天气都是数据上的搜集,做成了一个数据表
- 如你所见,功能很简单。只有基本的播放,停止,甚至只针对一首歌曲,仅供初学者参考学习用。代码from tkinter import *from
- 序列化(Serialization)与反序列化(Deserialization)是RESTful API 开发中绕不开的一环,开发时,序列化
- 1、将一个字典输入:该字典必须满足:value是一个list类型的元素,且每一个key对应的value长度都相同:(以该字典的key为col
- 第一步:获取mysql YUM源进入mysql官网获取RPM包下载地址https://dev.mysql.com/downloads/rep