Python爬虫基础之requestes模块
作者:世界的隐喻 发布时间:2022-04-24 20:20:15
标签:Python,requestes,模块
一、爬虫的流程
开始学习爬虫,我们必须了解爬虫的流程框架。在我看来爬虫的流程大概就是三步,即不论我们爬取的是什么数据,总是可以把爬虫的流程归纳总结为这三步:
1.指定 url,可以简单的理解为指定要爬取的网址
2.发送请求。requests 模块的请求一般为 get 和 post
3.将爬取的数据存储
二、requests模块的导入
因为 requests 模块属于外部库,所以需要我们自己导入库
导入的步骤:
1.右键Windows图标
2.点击“运行”
3.输入“cmd”打开命令面板
4.输入“pip install requests”,等待下载完成
如图:
如果还是下载失败,我的建议是百度一下,你就知道(我也是边学边写,是在是水平有限)
欧克,既然导入成功后我们就简单的来爬取一下搜狗的首页吧!
三、完整代码
import requests
if __name__ == "__main__":
# 指定url
url = "https://www.sougou.com/"
# 发起请求
# get方法会返回一个响应数据
response = requests.get(url)
# 获取响应数据
page_txt = response.text # text返回一个字符串的响应数据
# print(page_txt)
# 存储
with open("./sougou.html", "w", encoding = "utf-8") as fp:
fp.write(page_txt)
print("爬取数据结束!!!")
我们打开保存的文件,如图
欧克,这就是最基本的爬取,如果学会了,那就试一试爬取 B站 的首页吧。
来源:https://blog.csdn.net/ShiJieDeYinYu/article/details/115670600
0
投稿
猜你喜欢
- pytorch中index_select()的用法index_select(input, dim, index)功能:在指定的维度dim上选
- 当1980年Three Rivers公司第一次推出图形用户界面Perq,产生GUI这个概念的时候,不知道他们有没有想过今天图形界面设计竟然会
- 花几分钟时间欣赏一下我们写好的Web应用程序,然后我们再来搞点小破坏。 我们故意在 views.py 文件中引入一项 Python 错误,注
- 阅读:Chapter 3 * 的表格“Misquotations are the only quotations tha are never
- 确定数据库内有多少记录,或者确定有多少记录达到了某些标准,这些用ASP完成并非难事。如果你采用了正确的游标类型,你可以用RecordCoun
- 一. 介绍fire是python中用于生成命令行界面(Command Line Interfaces, CLIs)的工具,不需要做任何额外的
- 在所有的比例中黄金分割是最能引起人的美感的,0.618被公认为最具有审美意义的比例数字。黄金分割之所以那么普遍的流行,我猜一定跟理想女人体的
- Windows Server 2003系统是现在很流行的服务器操作系统,许多网站都用它来做。但是如何保证服务器的相对安全,这个只要进行一些简
- Smarty Smarty的特点是将模板编译成PHP脚本,然后执行这些脚本。很快,非常灵活。 Heyes Template&nbs
- 本文实例讲述了Python求导数的方法。分享给大家供大家参考。具体实现方法如下:def func(coeff): sum=
- 0. 学习目标在顺序存储方式中,根据数据元素的序号就可随机存取表中任何一个元素,但同时在插入和删除运算需要移动大量的元素,造成算法效率较低。
- 如何在ADO中客户端利用好缓存技术?具体应用见下例:global.asa< !--METADATA TYPE=&q
- http://swik.net/Ajax/Ajax+Mistakes在某网站瞎逛时,发现这个链接,进去逛了逛,觉得很有意思,大家也可以去看看
- 先在GitHub找到PHPMailer 并下载https://github.com/PHPMailer/PHPMailer//PHPMail
- 先简单说一下MP3的ID3 标记,因为主要是操作这个玩意MP3最开始的时候没有我们今天看到的那样,有歌手、年代,专集等等信息只有一些简单的参
- 最近发现一常见的加载进度条(loadding)的问题,所以试试,觉得还不错,大家可以看下.当然这个只是一个效果而已!呵呵,用的着的时候,你就
- python解决指定代码段超时程序卡死最近我写的一个程序中遇到了解析网页的代码,对于网页信息比较多的可能会超时,最后解析失败,程序卡死,于是
- 如何做一个全面的探测器? 我们也可以做一个功能类似的探测器,见下:<Script lan
- 图像噪声是指存在于图像数据中的不必要的或多余的干扰信息。在噪声的概念中,通常采用信噪比(Signal-Noise Rate, S
- 线性回归是一种常见的机器学习算法,也是人工智能中常用的算法。它是一种用于预测数值型输出变量与一个或多个自变量之间线性关系的方法。例如,你可以