Python爬虫Requests库的使用详情
作者:阿呆小记??????? 发布时间:2023-05-22 20:15:52
一、Requests库的7个主要的方法
1.request() | 构造请求,支撑以下的基础方法 |
2.get() | 获取HTML页面的主要方法,对应于http的get |
3.head() | 获取HTML页面的头部信息的主要方法,对应于http的head |
- | |
4.post() | 向HTML提交post请求的方法,对应于http的post |
- | |
- | |
5.put() | 向HTML提交put请求的方法,对应于http的put |
6.patch() | 向HTML提交局部修改的请求,对应于http的patch |
7.delete() | 向HTML提交删除请求,对应于http的delete |
以下代码是描述的request方法中的13个控制访问参数:
import requests
# **kwargs:控制访问的参数,均为可选项,不仅仅是针对request,其他六中方法依旧适用
# params:字典或字节序列,作为参数增加到URL中,可以通过该参数筛选数据
kv = {"key1":"value1","key2":"value2"}
r = requests.request('GET','http://python123.io/ws',params=kv)
print(r.url)
# https://python123.io//ws?key1=value1&key2=value2
# data:字典、字节序列或文件对象,作为Request的内容;提交时,作为数据内容添加到当前的连接下
kv = {"key1":"value1","key2":"value2"}
r = requests.request('POST','http://python123.io/ws',params=kv)
body = '主体内容'
r = requests.request('POST','http://python123.io/ws',params=body)
# json:JSON格式的数据,作为Request的内容
kv = {"key1":"value1"}
r = requests.request('POST','http://python123.io/ws',json=kv)
# headers:字典,HTTP定制头,模拟需要的浏览器来进行访问
hd = {"user-agent":"Chrome/10"}
r = requests.request('POST','http://python123.io/ws',headers=hd)
# cookies:字典或CookieJar,Request中的cookie
# auth:元组,支持HTTP认证功能
# files:字典类型,传输文件;将某个文件提交到连接上
fs = {"file":open('data.xls','rb')}
r = requests.request('POST','http://python123.io/ws',file=fs)
# timeout:设定超时时间,秒为单位;在规定的时间内没有接收到响应将会显示timeout异常
r = requests.request('POST','http://www.baidu.com',timeout=10)
# proxies:字典类型,设定访问代理服务器,可以增加登录认证
pxs = {'http':'http://user:pass@10.10.10.1:1234', #当我们进入HTTP协议的网站时增加登录认证
'https':'https://10.10.10.1.4321' } #当我们进入HTTPS协议的网站时,直接使用代理服务器的IP地址;可以有效掩盖爬虫的原IP地址
r = requests.request('GET','http://python123.io/ws',proxies=pxs)
# allow_redirects:True/False,默认为True,重定向开关
# stream:True/False,默认为True,获取内容立刻下载的开关
# verify:True/False,默认为True,认证SSL证书开关
# cert:本地SSL证书路径
二、Response对象的属性
status_code | HTTP请求的返回状态码,200表示成功,400表示失败 |
text | HTTP响应内容的字符串形式,即URL对应的页面内容 |
encoding | 从HTTPheader中猜测的响应内容编码方式 |
- | |
apparent_encoding | 从内容中分析出的响应内容编码方式(备选编码方式) |
- | |
content | HTTP响应内容的二进制形式 |
import requests
#构造一个向服务器请求资源的Response对象
r = requests.get(url="http://www.baidu.com")
print(r.status_code) #打印请求状态码
#200
print(type(r)) #打印请求对象类型
#<class 'requests.models.Response'>
print(r.headers) #打印请求对象的头部信息
#{'Cache-Control': 'private, no-cache, no-store, proxy-revalidate, no-transform', 'Connection': 'keep-alive', 'Content-Encoding': 'gzip', 'Content-Type': 'text/html', 'Date': 'Sat, 27 Jun 2020 09:03:41 GMT', 'Last-Modified': 'Mon, 23 Jan 2017 13:27:32 GMT', 'Pragma': 'no-cache', 'Server': 'bfe/1.0.8.18', 'Set-Cookie': 'BDORZ=27315; max-age=86400; domain=.baidu.com; path=/', 'Transfer-Encoding': 'chunked'}
print(r.text)
print(r.encoding) #ISO-8859-1
print(r.apparent_encoding) #备用编码utf-8
r.encoding = "utf-8"
print(r.text)
直接解析会出现乱码,将字符设为apparent_encoding时会结局问题。
三、爬取网页通用代码
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "产生异常!"
作用:r.raise_for_status()函数
判断当前请求返回状态码,当返回状态码不为200时,产生异常并能够被except捕获
import requests
# (定义方法)封装函数
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "代码错误,产生异常!"
if __name__ =="__main__":
url = "http://www.baidu.com"
print(getHTMLText(url)) #正常显示爬取的页面信息
if __name__ =="__main__":
url = "www.baidu.com" #缺失了
print(getHTMLText(url)) #代码错误,产生异常!
四、Resquests库的常见异常
requests.ConnectionError | 网络连接错误异常,如DNS查询失败、拒绝连接等 |
requests.HTTPError | HTTP错误异常 |
requests.URLRequired | URL缺失异常 |
requests.TooManyRedirects | 超过最大重定向次数,产生重定向异常 |
requests.ConnectTimeout | 连接远程服务器超时异常 |
requests.Timeout | 请求URL超时,产生超时异常 |
五、Robots协议展示
import requests
# (定义方法)封装函数
def getHTMLText(url):
try:
r = requests.get(url,timeout=30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return "代码错误,产生异常!"
if __name__ =="__main__":
url = "http://www.baidu.com/robots.txt"
print(getHTMLText(url)) #正常显示爬取的页面信息,显示出robots协议对于不同类型爬虫的限制
六、案例展示
1.爬取京东商品信息
在爬取后,我们发现在控制台中返回了带有login?
的一个href,并没有具体的信息内容。但是在爬取主页时,可以直接获取主页具体信息。个人认为是由于无法识别是否已经登陆而导致的,后续学习中会跟进知识点及解决方法。(若有大佬会的,感谢评论!)
2.爬取网上图片并保存
import requests
import os
url = "http://image.ngchina.com.cn/2019/0523/20190523103156143.jpg"
root = "F:/图片/" #根目录
path = root + url.split('/')[-1] #以最后一个/后的文字命名
try:
if not os.path.exists(root): #如果不存在根目录文件,则创建根目录文件夹
os.mkdir(root) #该方法只能创建一级目录,如要创建多层,可以遍历循环创建
if not os.path.exists(path):
r = requests.get(url)
with open(path,'wb') as f:
f.write(r.content) #r.content返回的是2进制编码,将其写入
f.close()
print("文件已成功保存!")
else:
print("文件已存在~")
except:
print("爬取失败!!!")
来源:https://blog.51cto.com/u_15749390/5577210


猜你喜欢
- 使用pip安装 pip install virtualenv因为已经安装过了,所以显示这样在这里我想在这里推荐大
- This is a {t}. {name}是一个很强大的字符串模板解析方法。它接受三个参数,分别是{args.text},{args.obj
- 那么,现在如果给出一个权限编号,要去检索出用后这个权限的用户集合,就会需要在逗号分隔的多个权限编号中去匹配给出的这个权限编号。如果使用lik
- PHP join() 函数实例把数组元素组合为一个字符串:<?php $arr = array('Hello',
- python中通过pip安装库文件时出现“EnvironmentError: [WinError 5] 拒绝访问”我遇到的问题:电脑上已经有
- 本文实例讲述了Python设计模式之MVC模式。分享给大家供大家参考,具体如下:一.简单介绍mvc模式 the mo
- 一.基本数据类型整数:int字符串:str(注:\t等于一个tab键)布尔值: bool列表:list (元素的集合)列表用[]元祖:tup
- 在实现贪吃蛇游戏时,首先需要使用python内置的turtle模块来实现创建游戏窗体与键盘按键的监听工作,然后使用freegames模块进行
- 一、自动化测试的概念性能系统负载能力稳定性过载操作下的系统瓶颈自动化测试,使用程序代替人工,可以提高测试效率性,自动化测试能自动化使用代码模
- 使用springboot开发时,默认使用内置的tomcat数据库连接池,经常碰到这种情况:运行时间一长,数据库连接中断了。所以使用c3p0连
- 本文实例讲述了Python递归及尾递归优化操作。分享给大家供大家参考,具体如下:1、递归介绍递归简而言之就是自己调用自己。使用递归解决问题的
- 1、使用mysqldump工具将MySql数据库备份mysqldump -u root -p -c --default-character-
- Golang 性能基准测试Golang 中的性能基准测试是使用标准库 testing 来实现的,编写性能测试代码是很容易的:创建性能测试文件
- 油猴脚本(Tampermonkey)是一个非常流行的浏览器扩展,它可以运行由广大社区编写的扩展脚本,来实现各式各样的功能,常见的去广告、修改
- 一、什么是缓存击穿当一个key是热点key时,一般会做缓存来抗大量并发,但当缓存失效的一瞬间,这些大量的并发请求会击穿缓存,直接请求数据库为
- 1.文件的读取和显示方法1: f=open(r'G:\2.txt') print f.read()&nb
- 一、理论知识准备1.确定假设函数 如:y=2x+7 其中,(x,y)是一组数据,设共有m个2.误差cost 用平方误差代价函数 3.减小误差
- 边缘检测Canny边缘检测器是一种被广泛使用的算法,并被认为是边缘检测最优的算法,该方法使用了比高斯差分算法更复杂的技巧,如多向灰度梯度和滞
- 使用Django框架搭建后端服务器,后台接收前端传递过来xlsx的文件,直接将前端传递的文件转化为DataFrame或直接将文件保存。url
- 正文方法一:直接使用已知的cookie访问特点:简单,但需要先在浏览器登录原理:简单地说,cookie保存在发起请求的客户端中,服务器利用c