浅析Python requests 模块
作者:kevin.Xiang 发布时间:2023-04-28 17:45:18
标签:Python,requests,模块,爬虫
Python requests 模块
requests 模块是我们使用的 python爬虫 模块 可以完成市场进80%的爬虫需求。
安装
pip install requests
使用
requests模块代码编写的流程:
- 指定url
- 发起请求
- 获取响应对象中的数据
- 持久化存储
-------------案例-------------------------
import requests
# 指定url
url="https://www.sogou.com/"
# 发起请求
response = requests.get(url)
# 获取响应对象中的数据
page_text = response.text
# 持久化存储
with open('./sogou.html','w',encoding='utf-8') as fp:
fp.write()
-------------------------------------------
参数
# post 数据
response = requests.post(url=url,data=data,headers=headers)
# get 数据
response = requests.get(url=url,data=data,headers=headers)
# 返回二进制数据
response.content
# 返回字符串数据
response.text
# 返回json对象
response.json()
其他了解
1、该模块实现爬取数据前需要查找需要爬取数据的指定URL,可通过浏览器自带抓包功能。
# 浏览器抓取 Ajax 请求
F12 --> Network --> XHR --> Name --> Response
2、上面的headers参数是进行UA伪装为了反反爬
反爬机制:UA检测 --> UA伪装
3、下面是http我们爬包是常用的请求头参数
- accept: 浏览器通过这个头告诉服务器,他所支持的数据类型
- Accept-Charset:浏览器通过这个头告诉服务器,它支持那种字符集
- Accept-Encoding:浏览器通过这个头告诉服务器,支持的压缩格式
- Accept-Language:浏览器通过这个头告诉服务器,他的语言环境
- Host:浏览器同过这个头告诉服务器,想访问哪台主机
- If-ModifiedSince:浏览器通过这个头告诉服务器,缓存数据的时间
- Heferer:浏览器通过这个头告诉服务器,客户及时那个页面来的,防盗链
- Connection:浏览器通过这个头告诉服务器,请求完后是断开链接还是保持链接
- X-Requested-With:XMLHttpRequest 代表通过ajax方式进行访问
- User-Agent:请求载体的身份标识
来源:https://www.cnblogs.com/xiangsikai/p/11251530.html
0
投稿
猜你喜欢
- 元组的结构在这一小节当中主要介绍在 python 当中元组的数据结构:typedef struct { PyObj
- <script> Function.prototype.$bind=function(object) {  
- 1.文本框只能输入数字代码(小数点也不能输入)<input onkeyup="this.value=this.va
- 大家平时见到google的广告太多了,但有没有兴趣知道一下它的运行过程呢?下面我们一起来看看这个广告代码的执行过程,以及其中的一些精彩内容。
- win10 Python3.7安装keras深度学习集成包 TensorFlow 和Ubuntu下安装keras在win10下安装安装时必须
- 本文实例为大家分享了opencv+python实现图像矫正的具体代码,供大家参考,具体内容如下需求:将斜着拍摄的文本图像进行矫正python
- 首先需要安装arrow库:pip install arrowArrow提供了一个合理的、人性化的方法来创建、操作、格式转换的日期,时间,和时
- python语句与语法1.python简单语句的基本介绍>>> while True: #简单的while循环... re
- 1. 一个简单的字典我们先从写一个简单的字典示例开始,顺便看一下 python 字典的语法。student ={'姓名':&
- Laravel 中间件提供了一种方便的机制来过滤进入应用的 HTTP 请求。例如,Laravel 内置了一个中间件来验证用户的身份认证。如果
- 阅读上一篇:W3C优质网页小贴士(三)明智地选择 URI没有什么比走到你最喜欢的商店门口,却发现店门紧闭,而且没有看见店面搬迁告示这种事情还
- 前言一个表和多个表进行关联,但具体随着业务的加深,表不断的增加,关联的数量不断的增加,怎么通过一开始通过表的设计后,不在后期在修改表,彻底的
- 可以输入的下拉菜单,不错的一个效果,相信asp之家给大家收集的这个代码会有不少人需要!<html> <head> &
- 目录1.列表2.使用格式3.一些很有用的函数4.元组 tuple5.元组的常用函数1.列表python没有数组,而是引入了列表(list),
- 引言在做接口测试的时候,我们不仅需要将测试结果以报告的形式展示,还需要将测试结果以邮件的形式发送到需要知道的人手中。那么如何发送邮件呢?邮件
- python 容器总结整理list可变数组tuple不可变数组dict键值对(key-value)的字典(dictionary)初始化:a=
- 这次讨论一下关于select元素的一个问题,其实很早以前我就碰到过关于select元素的问题,这次做网站又被问到同样的问题,就是:一般div
- 使用drop函数删除dataframe的某列或某行数据:drop(labels, axis=0, level=None, inplace=F
- 一,概要需求: 实现一个GUI界面下的 6+1体育彩票选号器.(1) 要求界面可以加载系统时间及开奖时间(2)功能区完成人选及机选的功能 人
- 段正淳的css笔记(1)分类之间的横竖线:试想过总结出这几年来写css与xhtml的经验 ,汇总成一片”旷世奇文”分享给大家。无奈寡人年世已