Python爬虫基础之requestes模块
作者:世界的隐喻 发布时间:2022-04-24 20:20:15
标签:Python,requestes,模块
一、爬虫的流程
开始学习爬虫,我们必须了解爬虫的流程框架。在我看来爬虫的流程大概就是三步,即不论我们爬取的是什么数据,总是可以把爬虫的流程归纳总结为这三步:
1.指定 url,可以简单的理解为指定要爬取的网址
2.发送请求。requests 模块的请求一般为 get 和 post
3.将爬取的数据存储
二、requests模块的导入
因为 requests 模块属于外部库,所以需要我们自己导入库
导入的步骤:
1.右键Windows图标
2.点击“运行”
3.输入“cmd”打开命令面板
4.输入“pip install requests”,等待下载完成
如图:
如果还是下载失败,我的建议是百度一下,你就知道(我也是边学边写,是在是水平有限)
欧克,既然导入成功后我们就简单的来爬取一下搜狗的首页吧!
三、完整代码
import requests
if __name__ == "__main__":
# 指定url
url = "https://www.sougou.com/"
# 发起请求
# get方法会返回一个响应数据
response = requests.get(url)
# 获取响应数据
page_txt = response.text # text返回一个字符串的响应数据
# print(page_txt)
# 存储
with open("./sougou.html", "w", encoding = "utf-8") as fp:
fp.write(page_txt)
print("爬取数据结束!!!")
我们打开保存的文件,如图
欧克,这就是最基本的爬取,如果学会了,那就试一试爬取 B站 的首页吧。
来源:https://blog.csdn.net/ShiJieDeYinYu/article/details/115670600
0
投稿
猜你喜欢
- 刚刚想从数据库中的表EXPERT_DETAILS中检索出修改人Modifier(类型 VARCHAR2(20),可为空)为空的那些记录,因为
- 问题背景我创建了一个函数,里面包含了一个获取当前执行文件路径的代码current_path = os.path.dirname(os.pat
- 用python读取excel表中的数据假如说有如下一张存储了数据的excel表,其中x1-x6是特征,y_label是特征对应的类别标签。我
- 本文实例讲述了python异常和文件处理机制。分享给大家供大家参考,具体如下:1 异常处理Python的异常用tryexceptfinall
- 字符串的表示方式单引号 ' '双引号 " "多引号 """ "&
- 一行命令搭建一个基于python的http文件传输服务由于今天朋友想要一个文件,而我恰好有,因为这个文件比较大,网速不是很给力,所以想到了p
- 使用 types 增强vscode中javascript代码提示功能微软的vscode编辑器是开发typescript项目的不二首选,其本身
- 1、安装setuptools命令如下:wget --no-check-certificate https://pypi.python.org
- 本文实例讲述了python的类方法和静态方法。分享给大家供大家参考。具体分析如下:python没有和C++中static关键字,它的静态方法
- 最近帮人做了个贪吃蛇的游戏(交作业用),很简单,界面如下:开始界面:游戏中界面:是不是很简单、朴素。(欢迎大家访问GitHub)游戏是基于P
- 1. 永远不要停止学习和阅读 阅读 书籍,而不只是网站 阅读 只为自我提升,而不是为了下一个项目 阅读 提升你的基础,而不只是最新技术 2.
- 首先, 补充下对node 的理解:nodeJs 是一个单进程单线程应用程序, 但是通过事件和回调支持并发, 所以性能非常高~那么什么是单进程
- 很有创意的鼠标指针风筝,看起来非常有意思。在网络上看到的,一下也想不起来是那里的了,所以特别说一下图片是来自网络的,版权归作者所有。
- 本文实例讲述了python条件变量之生产者与消费者操作。分享给大家供大家参考,具体如下:互斥锁是最简单的线程同步机制,面对复杂线程同步问题,
- 由于代码比较短,这里就不进行注释了代码如下:<% '当目标页面的包含文件即#include的页面里边存在respon
- 一:数据源介绍本篇文章介绍的是使用python实现对葵花8号卫星数据进行自动下载。葵花8号卫星是日本的一颗静止轨道气象卫星,覆盖范围为60S
- 一、背景起源于一个问题:怎样找到字符串中出现次数最多的字符其实使用max函数就能很轻松的解决这个问题:代码:str1 = "AAA
- <%Function BytesToBstr(body,Cset)dim objstreamset&n
- 上一篇自动在Windows中运行Python脚本并定时触发功能实现传送门链接运行Python脚本:.bat文件在Windows中,.bat文
- SQL Server中包含多种不同类型的页,来满足数据存储的需求。不管是什么类型的页,它们的存储结构都是相同的。每个数据文件都包含相当数量的