Python采集C站热榜数据实战示例
作者:极客飞虎 发布时间:2022-05-03 13:13:13
前言
大家好,我们今天来爬取c站的热搜榜,把其文章名称,链接和作者获取下来,我们保存到本地,我们通过测试,发现其实很简单,我们只要简单获取数据就可以。没有加密的东西。
功能实现
我们话不多说,我们先找到url,也就是请求地址。我们代码如下:
url = 'https://blog.csdn.net/phoenix/web/blog/hot-rank?page=0&pageSize=25&type='
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'}
res = requests.get(url, headers=headers)
我们这里首先定义了一个 url
变量,它表示要访问的 URL。然后,它定义了一个 headers
变量,其中包含了一些 HTTP 请求头信息,如 User-Agent
表示 HTTP 请求的 User-Agent。最后,它使用 requests.get()
函数发送 HTTP GET 请求,并将 headers
变量作为参数传递给该函数。
解析数据
我们获取到了内容,接下来就是解析数据,我们不难发现这个是一个json数据,我们直接取值就好了,我们来看看代码怎么写。
datas = res.json()['data']
for data in datas:
period = data['period']
nickName = data['nickName']
articleTitle = data['articleTitle']
articleDetailUrl = data['articleDetailUrl']
viewCount = data['viewCount']
commentCount = data['commentCount']
favorCount = data['favorCount']
hotRankScore = data['hotRankScore']
print(period,nickName,articleTitle,avatarUrl,viewCount,favorCount,commentCount,hotRankScore)
我们将从 res.json()
中获取 data
数据,并将其存储在 datas
变量中。res.json()
返回的是一个包含多个字典的对象,每个字典代表一个数据。
在这个例子中,res.json()
返回的字典中的 data
字段的值为 [{'period': '1', 'nickName': '', 'articleTitle': '', 'articleDetailUrl': '', 'viewCount': '', 'commentCount': '', 'favorCount': '', 'hotRankScore': '0.08536632385314886', 'avatarUrl': 'null', 'viewCount': '0', 'favorCount': '0', 'commentCount': '0', 'hotRankScore': '0.08536633735229816'}]
,我们使用这个数据来遍历 datas
变量中的每个字典。
在每个字典中,我们使用 data
字段的值来获取期数、昵称、标题、详细URL、访问次数、评论次数、喜欢次数、热门排名分数。
保存数据
now_time =time.strftime('%Y-%m-%d-%H-%M',time.localtime(time.time()))
f = open(f'{now_time}热榜数据.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['日期', '姓名', '文章标题', '文章链接', '浏览量',
'评论量', '收藏量', '热榜值'])
csv_writer.writeheader()
我们首先打开一个名为 data.csv
的文件,并指定使用 a
模式打开文件。然后,使用 csv.DictWriter()
函数创建一个 CSV 写入器,并指定要写入的列名。在这个例子中,我们指定了 fieldnames
参数,它包含了我们要写入的列名。
接下来,我们使用 csv_writer.writeheader()
方法写入列名。这个方法会将列名写入文件的第一行。
最后,我们使用 csv_writer.writerow()
方法写入数据。
我们先写入字典。
dit = {'日期': period, '姓名': nickName, '文章标题': articleTitle, '文章链接': articleDetailUrl, '浏览量': viewCount,
'评论量': commentCount, '收藏量': favorCount, '热榜值': hotRankScore}
print(dit)
csv_writer.writerow(dit)
这段代码创建了一个字典dit
,其中包含了每个元素的值。然后,它使用csv_writer.writerow()
方法将字典写入CSV文件中。
来源:https://juejin.cn/post/7228547895854334009


猜你喜欢
- pycharm 2020.1.2激活工具下载以及破解方法 免费可用至2089年需要提前安装好IDEA,官网下载地址:https://www.
- Elastic Security 为分析人员提供了预防,检测和响应威胁的手段。 该解决方案解决了SIEM,endpoint,威胁搜寻等安全用
- 一、手指触屏,利用touchstart和touchend计算前后滑动距离,判断是上拉还是下滑。二、js中距离:pageY、clientY、o
- 0. 学习目标在诸如单链表、双线链表等普通链表中,查找、插入和删除操作由于必须从头结点遍历链表才能找到相关链表,因此时间复杂度均为O(n)。
- 基于MNIST数据集的逻辑回归模型做十分类任务没有隐含层的Softmax Regression只能直接从图像的像素点推断是哪个数字,而没有特
- 方法一: 在给出的输入CD-KEY(序列号)的界面中,输入你已经安装的windows server 2003 的CD-KEY(序列号)即可以
- Python程序中,在进程和进程之间是不共享全局变量的数据的。我们来看一个例子:from multiprocessing import Pr
- 远程连接SQL Server 2008,服务器端和客户端配置关键设置:第一步(SQL2005、SQL2008):开始-->程序--&g
- 在python中,用于数组拼接的主要来自numpy包,当然pandas包也可以完成。而,numpy中可以使用append和concatena
- 什么是JSON Web Token?JSON Web Token(JWT)是一个开放标准(RFC 7519),它定义了一种紧凑且自包含的方式
- SQLite,是一款轻型的数据库,是遵守ACID的关系型数据库管理系统,它包含在一个相对小的C库中。在很多嵌入式产品中使用了它,它占用资源非
- 目录什么是分区表分区表应用场景分区表的限制分区类型分区表的使用1、范围分区2、列表分区(list分区)3、列分区4、hash分区5、秘钥分区
- 本文实例讲述了python数据结构之图的实现方法。分享给大家供大家参考。具体如下:下面简要的介绍下:比如有这么一张图:  
- 为庆祝jQuery的四周年生日,jQuery官方团队正式发布了jQuery 1.4版本。在这个版本中,jQuery官方团队做了大量的编码、测
- 实验环境 Pytorch 1.7.0torchvision 0.8.2Python 3.8CUDA10.2 + cuDNN v7.
- 一、mysqldump 简介mysqldump 是 MySQL 自带的逻辑备份工具。它的备份原理是通过协议连接到 MySQL 数据库,将需要
- where条件表达式--统计函数Select count(1) from student;--like模糊查询--统计班上姓张的人数sele
- 有2个不同的方法增加用户:通过使用GRANT语句或通过直接操作MySQL授权表。比较好的方法是使用GRANT语句,因为他们是更简明并且好像错
- 1. 安装clickClick 是 Flask 的开发团队 Pallets 的另一款开源项目,它是用于快速创建命令行的第三方模块。官网文档地
- 1、生成数据集(双月数据集)class moon_data_class(object): def __init__