Python实现统计文章阅读量的方法详解
作者:极限之旅 发布时间:2023-11-02 23:28:46
标签:Python,文章,阅读量
前言
写这次博客其实事出有因,前几天呢,一个非常优秀的学姐在QQ空间里晒了自己的CSDN博客的总阅读量,达到了7万+,很厉害了,而且确实她的博文都是精髓,我就也想来看看我的博客总阅读量了,看看什么时候能达到人家的高度,但是博客园偏偏就没有这个功能(CSDN是可以直接在首页看的)。于是乎,想尽一切办法,要来统计阅读量了,看看别人写的使用其他的统计工具,把代码放在博客园的公告栏,我也就放了个站长联盟的统计代码(具体操作可以百度,免费申请账号的),虽然,它统计的数据更多,但是呢,它只能统计我从使用这个工具之后的访问量,也就是,到现在为止,我的所有博客到底拥有多少的阅读量,还是没能统计出来,那不还是没解决问题嘛,这就很尴尬了。。。
坐在电脑前,发了一会呆,突然,想起来,哎,这下学的Python爬虫或许可以派上用场了,于是乎,我就开始了愉快的爬虫统计阅读量之路,其实也很简单,抓取博客园博文的每一页,然后利用xpath解析出阅读量,然后进行加和就行了,为了做持久化,随时看看阅读量的增加情况,我就写入了一个文本文件,每次就两行内容,查询时间和总阅读量,当然,我在控制台可以清晰的查看每页每条博文的阅读量。这下可总算是把问题解决了,182篇博文,总阅读量:35205,差不多是学姐的一半,继续努力,看明年毕业时能不能达到学姐的高度,下面是最终的代码,当然还有很多不足之处,希望大家多多指教
实现代码
#导入需要的模块
import time
import requests
from lxml import etree
#进行UA伪装
headers={
"User-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"
}
#创建文件,存储爬到的数据,做持久化,以追加的方式打开,可读可写
fp=open('./counter.txt','a+',encoding = 'utf-8')
#记录当前查询时间
select_time=time.strftime('%Y.%m.%d %H:%M:%S ',time.localtime(time.time()))
fp.write('查询的时间为:'+select_time+'\n')
def spider():
#总阅读量
counts=0
#分页爬取数据加和
for page_num in range(1,20):
#设置url
url="https://www.cnblogs.com/andrew3/default.html?page=%d"
new_url=format(url%page_num)
#获取页面数据
page_text=requests.get(url=new_url,headers=headers).text
tree=etree.HTML(page_text)
#解析数据,得到每页每篇博文的阅读量
count_list=tree.xpath('//div[@class="forFlow"]/div/div[@class="postDesc"]/span[1]/text()')
print(count_list)
#每一页的阅读量
sum=0
#计算每页的阅读量
for i in range(len(count_list)):
sum+=int(count_list[i][3:len(count_list[i])-1])
#计算总阅读量
counts+=sum
#打印每页每篇博文的阅读量
print(sum,counts)
#总阅读量持久化
fp.write("总阅读量为:%s" % counts + '\n')
#关闭文件,释放资源
def close_file():
fp.close()
def main():
spider()
close_file()
if __name__ == '__main__':
main()
效果图
来源:https://www.cnblogs.com/andrew3/p/12969703.html


猜你喜欢
- 目录1.mvc vs mvtmvc:mvt:2.虚拟环境3.安装包4.创建django项目5.创建应用6.模型ORM选项 说明7.后台管理系
- 1.新建site-packages目录,进入到site-packages目录下;2.在site-packages目录下执行pip freez
- Confusion Matrix在机器学习领域,混淆矩阵(confusion matrix),又称为可能性表格或是错误矩阵。它是一种特定的矩
- 写在之前SQLite 是一个小型的关系型数据库,它最大的特点在于不需要单独的服务、零配置。我们在之前讲过的两个数据库,不管是 MySQL 还
- 前言pandas数据框针对高维数据,也有多层索引的办法去应对。多层数据一般长这个样子可以看到AB两大列,下面又有xy两小列。 行有abc三行
- 本文实例为大家分享了python实现网络五子棋的具体代码,供大家参考,具体内容如下服务器端:import osimport socketim
- 本文实例为大家分享了js实现上传文件功能的具体代码,供大家参考,具体内容如下一、用input完成上传,效果图如 &nb
- 判断某一个表的记录总数,对于一个开发者来说是最再常见不过的事,我想大家都常用的作法就是:以下为引用的内容:select count(*) f
- 一个ASPJPEG组件综合操作的asp类CLASS相关文章:ASP怎么谈到应用到类的?ASP中类的详细介绍(class Property G
- 进度条的作用就是提示用户进度信息。可以有两种方式:1)提示完成度比如,正在安装程序的进度,一般是从0%到100%。2)提示正在进行处理比如正
- 先看实际效果,现在时间2018.4.26使用python脚本按照年月日生成多级目录,创建的目录可以将系统生成的日志文件放入其中,方便查阅,代
- vue单向数据流在vue中需要遵循单向数据流原则在父传子的前提下,父组件的数据发生会通知子组件自动更新子组件内部,不能直接修改父组件传递过来
- 数据准备: 需要准备两个stl文件、Python需要安装vtk库步骤一:数据读取 首先通过vtk.vtkSTLReade
- 在程序设计过程中,经常需要对输入的数据格式进行检查,这时就会用到正则表达式,匹配正则表达式则数据格式正确,否则格式错误。为了检查输入的数据是
- 问题你想重新加载已经加载的模块,因为你对其源码进行了修改。解决方案使用imp.reload()来重新加载先前加载的模块。举个例子:>&
- 本文实例为大家分享了vue实现计时器的具体代码,供大家参考,具体内容如下这里做的是点击按钮开始与结束倒计时的功能<div class=
- PyCharm 应该是大多数 python 开发者的首选 IDE,每天我们都在上面敲着熟悉的代码,写出一个又一个奇妙的功能。它是帮助用户在使
- 解读pandas.DataFrame.corrwithpandas.DataFrame.corrwith用于计算DataFrame中行与行或
- 记录训练过程中的每一步的loss变化 if verbose and step % verbose == 0: sys.stdout.writ
- 如果你在写文章或者 Demo,为了简单,你当然可以用事件监听函数,以及那些事件对象提供的方法等。但在实际中,有一些方法和属性是有兼容性问题的