Python采集C站热榜数据实战示例
作者:极客飞虎 发布时间:2022-05-03 13:13:13
前言
大家好,我们今天来爬取c站的热搜榜,把其文章名称,链接和作者获取下来,我们保存到本地,我们通过测试,发现其实很简单,我们只要简单获取数据就可以。没有加密的东西。
功能实现
我们话不多说,我们先找到url,也就是请求地址。我们代码如下:
url = 'https://blog.csdn.net/phoenix/web/blog/hot-rank?page=0&pageSize=25&type='
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36'}
res = requests.get(url, headers=headers)
我们这里首先定义了一个 url
变量,它表示要访问的 URL。然后,它定义了一个 headers
变量,其中包含了一些 HTTP 请求头信息,如 User-Agent
表示 HTTP 请求的 User-Agent。最后,它使用 requests.get()
函数发送 HTTP GET 请求,并将 headers
变量作为参数传递给该函数。
解析数据
我们获取到了内容,接下来就是解析数据,我们不难发现这个是一个json数据,我们直接取值就好了,我们来看看代码怎么写。
datas = res.json()['data']
for data in datas:
period = data['period']
nickName = data['nickName']
articleTitle = data['articleTitle']
articleDetailUrl = data['articleDetailUrl']
viewCount = data['viewCount']
commentCount = data['commentCount']
favorCount = data['favorCount']
hotRankScore = data['hotRankScore']
print(period,nickName,articleTitle,avatarUrl,viewCount,favorCount,commentCount,hotRankScore)
我们将从 res.json()
中获取 data
数据,并将其存储在 datas
变量中。res.json()
返回的是一个包含多个字典的对象,每个字典代表一个数据。
在这个例子中,res.json()
返回的字典中的 data
字段的值为 [{'period': '1', 'nickName': '', 'articleTitle': '', 'articleDetailUrl': '', 'viewCount': '', 'commentCount': '', 'favorCount': '', 'hotRankScore': '0.08536632385314886', 'avatarUrl': 'null', 'viewCount': '0', 'favorCount': '0', 'commentCount': '0', 'hotRankScore': '0.08536633735229816'}]
,我们使用这个数据来遍历 datas
变量中的每个字典。
在每个字典中,我们使用 data
字段的值来获取期数、昵称、标题、详细URL、访问次数、评论次数、喜欢次数、热门排名分数。
保存数据
now_time =time.strftime('%Y-%m-%d-%H-%M',time.localtime(time.time()))
f = open(f'{now_time}热榜数据.csv', mode='a', encoding='utf-8', newline='')
csv_writer = csv.DictWriter(f, fieldnames=['日期', '姓名', '文章标题', '文章链接', '浏览量',
'评论量', '收藏量', '热榜值'])
csv_writer.writeheader()
我们首先打开一个名为 data.csv
的文件,并指定使用 a
模式打开文件。然后,使用 csv.DictWriter()
函数创建一个 CSV 写入器,并指定要写入的列名。在这个例子中,我们指定了 fieldnames
参数,它包含了我们要写入的列名。
接下来,我们使用 csv_writer.writeheader()
方法写入列名。这个方法会将列名写入文件的第一行。
最后,我们使用 csv_writer.writerow()
方法写入数据。
我们先写入字典。
dit = {'日期': period, '姓名': nickName, '文章标题': articleTitle, '文章链接': articleDetailUrl, '浏览量': viewCount,
'评论量': commentCount, '收藏量': favorCount, '热榜值': hotRankScore}
print(dit)
csv_writer.writerow(dit)
这段代码创建了一个字典dit
,其中包含了每个元素的值。然后,它使用csv_writer.writerow()
方法将字典写入CSV文件中。
来源:https://juejin.cn/post/7228547895854334009
猜你喜欢
- 一、把一个字符串的内容提取出来,并放到字典中流程如下: 1、得到字符串s,通过分割提取得到s1(是个列表) s=”name=lyy&
- 这篇文章不谈大道理,只谈细节。关于facebook的大道理,大家可以去海内网的帖子《谁去救救麦田老师吧》讨论。那里有很多IT评论高手,谈的很
- 1、注册时验证数据库用户名是否存在。 2、输入密码时提示密码强度和验证2次密码输入是否一样。 3、注册时验证数据库联系邮箱是否存在。 4、注
- 导入在阅读过程中如果遇到一些带有水印的资料是比较烦心的,如下图所示,水印以及类似的内容会影响我们的阅读体验,而市面上去水印的功能有多要收费且
- 背景:这个库的安装不是像其他的一样的直接使用 pip install XXX的形式,而是使用原始的Git方式1、apex这是NVIDIA开发
- 类的代码: define('QR_MODE_NUL', -1); define('QR_MODE_NUM',
- 抛出的异常信息:异常详细信息: System.ArgumentOutOfRangeException: “ddlTotalCostDisco
- MySQL字符集出错的解决方法:错误案例: Illegal mix of collations (gbk_chinese_ci,I
- phpMyAdmin 是一套可以通过WEB来管理 MySQL-server 以及单一数据库的 PHP
- 基本开发环境· Python 3.6· Pycharm相关模块使用import requestsimport timefrom tkinte
- 在应用系统中,尤其在联机事务处理系统中,对数据查询及处理速度已成为衡量应用系统成败的标准。而采用索引来加快数据处理速度也成为广大数据库用户所
- 以前有过一篇类似的文章, 讲的比较简单只有三个插件而已, 所以这篇文章将全持续更新.jQuery UI 大名顶顶, 不用介绍, 它的各个控件
- 使用Python读取解析xmind文件,一键统计测试用例数量。问题:做测试的朋友们经常会用到xmind这个工具来梳理测试点或写测试用例,但是
- 先来看一张简单的文档树很明显树的顶层节点是NodeA节点,接下来可以通过指定的合适节点移动到树中的任何点,结合以下的代码你可以更好的了解这棵
- 1.H5 download属性function downFile(content, filename) { // 创建隐藏的可下
- python 线程池的四种实现方式线程简述 一个程序运行起来后,一定有一个执行代码的东西,这个东西就是线程; 一般计算(
- 问: 如果数据表中有时间字段,现在要迁移到其他时区的服务器上,该如何处理呢?答:在高版本的mysqldump中,新增了一个选项:--tz-u
- 你一定很熟悉Youtube了,知道它是一个视频分享网站。是的,youtube目前十分流行,你也许会常常访问。这里有一些关于youtube u
- 图片按钮是我们经常应用的网页元素,按钮的生成有两种方法,一个是用链接<a>来模拟按钮,一个是用现成的表单按钮。<input
- SQL Server的以前版本在跟踪对象相关性方面做的并不好。原因是所有的对象相关性都是由对象ID来跟踪的,这意味着对象一开始就必须存在。但