位置：首页>> 网络编程>> Python编程>> 浅析Python requests 模块

浅析Python requests 模块

作者：kevin.Xiang　　发布时间：2023-04-28 17:45:18　

标签：Python,requests,模块,爬虫

Python requests 模块

requests 模块是我们使用的 python爬虫模块可以完成市场进80％的爬虫需求。

安装

pip install requests

使用

requests模块代码编写的流程：

- 指定url
- 发起请求
- 获取响应对象中的数据
- 持久化存储

-------------案例-------------------------
import requests
# 指定url
url="https://www.sogou.com/"
# 发起请求
response = requests.get(url)
# 获取响应对象中的数据
page_text = response.text
# 持久化存储
with open('./sogou.html','w',encoding='utf-8') as fp:
fp.write()
-------------------------------------------

参数

# post 数据
response = requests.post(url=url,data=data,headers=headers)

# get 数据
response = requests.get(url=url,data=data,headers=headers)

# 返回二进制数据
response.content

# 返回字符串数据
response.text

# 返回json对象
response.json()

其他了解

1、该模块实现爬取数据前需要查找需要爬取数据的指定URL，可通过浏览器自带抓包功能。

# 浏览器抓取 Ajax 请求
F12 --> Network --> XHR --> Name --> Response

2、上面的headers参数是进行UA伪装为了反反爬

反爬机制：UA检测 --> UA伪装

3、下面是http我们爬包是常用的请求头参数

- accept: 浏览器通过这个头告诉服务器，他所支持的数据类型
- Accept-Charset：浏览器通过这个头告诉服务器，它支持那种字符集
- Accept-Encoding：浏览器通过这个头告诉服务器，支持的压缩格式
- Accept-Language：浏览器通过这个头告诉服务器，他的语言环境
- Host：浏览器同过这个头告诉服务器，想访问哪台主机
- If-ModifiedSince：浏览器通过这个头告诉服务器，缓存数据的时间
- Heferer：浏览器通过这个头告诉服务器，客户及时那个页面来的，防盗链
- Connection：浏览器通过这个头告诉服务器，请求完后是断开链接还是保持链接
- X-Requested-With：XMLHttpRequest 代表通过ajax方式进行访问
- User-Agent：请求载体的身份标识

来源：https://www.cnblogs.com/xiangsikai/p/11251530.html

0

投稿

猜你喜欢

详细解读python操作json文件的详细
目录json支持的格式：代码操作1.json转化为python2. python序列化为json总结json转化为python表示反序列化p
分享Pandas库中的一些宝藏函数transform()
Pandas函数的核心功能是，既计算了统计值，又保留了明细数据。为了更好地理解transform和agg的不同，下面从实际的应用场景出发进行
MySQL备份脚本的写法
前言：数据库备份的重要性不言而喻，特别是在生产环境，任何数据的丢失都可能产生严重的后果。所以，无论什么环境，我们都应该有相应的备份策略来定时
Numpy中转置transpose、T和swapaxes的实例讲解
利用Python进行数据分析时，Numpy是最常用的库，经常用来对数组、矩阵等进行转置等，有时候用来做数据的存储。在numpy中，转置tra
Python中Jieba进行词频统计与关键词提取
1 词频统计1.1 简单词频统计1.导入jieba库并定义文本import jiebatext = "Python是一种高级编程语
MySql多表查询事务及DCL
目录一、多表查询1、查询语法2、准备sql3、笛卡尔积4、多表查询的分类4.1 内连接查询4.2 外链接查询 4.3 子查询&
重置MySQL中表中自增列的初始值的实现方法
重置MySQL中表中自增列的初始值的实现方法1. 问题的提出在MySQL的数据库设计中，一般都会设计自增的数字列，
Python实现AI自动抠图实例解析
一、简介抠图是用PS？用魔棒和快速选择工具？遇到复杂背景怎么办？最近发现一个神奇的工具——Remove Image Backgroundht
解决tensorflow训练时内存持续增加并占满的问题
记录一次小白的tensorflow学习过程，也为有同样困扰的小白留下点经验。先说我出错和解决的过程。在做风格迁移实验时，使用预加载权重的VG
学习win32com操作word之Range精讲
引言本集开始，将会深入Document接口。打开或创建一个文档都会产生一个Document对象，它代表文档本身，所以绝大部分文档的操作都会依
Mac下Supervisor进程监控管理工具的安装与配置
Supervisor 是一个类 unix 操作系统下的进程监控管理工具。安装 SupervisorSupervisor 是由 Python
python 如何获取文件夹中的全部文件
python 如何获取文件夹中的全部文件在神经网络准备训练集的时候，经常需要从文件夹中读取全部图片。经常遇到的有两种方式1 os.listd
Python爬取网页的所有内外链的代码
项目介绍采用广度优先搜索方法获取一个网站上的所有外链。首先，我们进入一个网页，获取网页的所有内链和外链，再分别进入内链中，获取该内链的所有内
python实现K折交叉验证
本文实例为大家分享了python实现K折交叉验证的具体代码，供大家参考，具体内容如下用KNN算法训练iris数据，并使用K折交叉验证方法找出
mysql如何删除数据表和关联的数据表删除详情
前言删除数据表的时候，表的定义和表中所有的数据均会被删除。因此，在进行删除操作前，最好对表中的数据做一个备份，以免造成无法挽回的后果。mys
推荐值得学习的12款python-web开发框架
最近JETBRAINS发布了目前最受欢迎的python-web开发框架，可以看到最受欢迎的还是Django和Flask，那么本文就对上榜的1
python实现分页效果
本文实例为大家分享了python实现分页效果展示的具体代码，供大家参考，具体内容如下难点：清空Layout#!/usr/bin/python
Python+Turtle绘制幸运草的示例代码
幸运草又名四叶草，一般指四叶的苜蓿、或车轴草。在十万株苜蓿草中，你可能只会发现一株是四叶草，机会率大约是十万分之一。因此四叶草是国际公认的幸
python,pycharm的环境变量设置方式
python,pycharm的环境变量设置官网下载安装python解释器时，如果忘记勾选添加到环境变量[add to path]，可进行如下
Java中用Mybatis插入mysql报主键重复的解决方案
Mybatis插入mysql报主键重复的问题首先思路是这样的，先去数据表里面去找有没有这个主键的数据（如果有会有返回值，如果没有则返回nul

python获取linux系统信息的三种方法

Python 实现键盘鼠标按键模拟

python交互模式下输入换行/输入多行命令的方法

零基础写python爬虫之打包生成exe文件

Python encode()方法和decode()方法详解

python tarfile压缩包操作保姆级教程

一篇文章带你了解Python中的装饰器

Keras保存模型并载入模型继续训练的实现

Python的爬虫包Beautiful Soup中用正则表达式来搜索

Python面向对象编程之类的继承

WPS word文档双面打印的两种方法

Unity实现UI光晕效果（发光效果）

明日之后雪夜颂歌价格怎么样

网易云教师资格证免费会员在哪领

如何在 Mac 上将照片导出为不同的文件格式？

iphone邮箱设置图文教程

天谕幼年约定冒险任务怎么完成？

c#开发cad预览图块步骤详解

三星笔记本电脑怎么重装系统？三星笔记本一键重装系统Win10教程

电脑黑屏如何一键还原？windows10系统黑屏一键还原办法

手机版 网络编程 asp之家 www.aspxhome.com