Python爬虫爬取博客实现可视化过程解析
作者:杨万里 发布时间:2023-12-16 08:58:33
标签:Python,爬虫,博客,可视化
源码:
from pyecharts import Bar
import re
import requests
num=0
b=[]
for i in range(1,11):
link='https://www.cnblogs.com/echoDetected/default.html?page='+str(i)
headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}
r=requests.get(link,headers=headers)
html=r.text
post=re.findall('<span class="post-view-count">(.*?)</span>',html)
for i in post:
i = i.replace("阅读(", "")
i = i.replace(")","")
b.append(i)
num=num+1
columns=[]
for i in range(1,num+1):
#设置行名
columns.append('博客'+str(i))
#设置数据
#设置柱状图的主标题与副标题
bar = Bar("柱状图", "每个博客阅读数量")
#添加柱状图的数据及配置项,先行后列
bar.add("阅读量", columns, b, mark_line=["average"], mark_point=["max", "min"])
#生成本地文件(默认为.html文件)
bar.render()
爬虫不是重点,只是拿来爬阅读数量,pyecharts是重点
这次爬的是我自己的博客,一共10页,每页10片文章,正好写了100篇博客
pyecharts安装:
pip install wheelpip install pyecharts==0.1.9.4
直接pip install pyecharts会下载最新版无法调用
注意点:pyecharts调用,貌似无法实现多个py文件一起调用(意思是编写时不能在多个文件里出现import语句)
步骤解释:
1.爬虫爬取阅读数
2.去除非法字符装入新的数组
3.设置横轴数据,生成柱状图
4.在当前目录下生成render.html,打开查看柱状图
结果:
柱状图是动态的,不是静态的
来源:https://www.cnblogs.com/echoDetected/p/13195631.html


猜你喜欢
- 本文推荐一款twitter做的bootstrapValidator.js,本身bootstrap就是twitter做的,那么使用原配的val
- 1. 用 Numpy ndarray 作为数据传入 plyimport numpy as npimport matplotlib as mp
- 众所周知windows平台漏洞百出,补丁一个接一个,但总是补也补不净。我把我所知道的看asp源码的方法总结了一下,并且用c#写了个应用程序来
- 1.引入css与jsbootstrapValidator.min.cssbootstrapValidator.min.js2.html中的m
- 在操作系统的文件中,还存在着一种我们可以自己定义的文件属性。这些属性不是保存在文件内容中,也不是直接可以通过 ls -al 所能看到的内容。
- 概述从今天开始, 小白我将带领大家一起来补充一下 数据库的知识.条件查询我们可以使用关键词Where来指定条件, 用于插入, 修改删除或者查
- 一,设计背景 由于所在公司ORACLE数据库较多,传统人工监控表空间的方式较耗时,且无法记录历史表空间数据,无法判断每日表空间增长
- 今天交流会上,分享前端的开发经验,有一条虽然很快带过,但是我倒是印象蛮深刻的,就写点小结来分享一下吧。不知道是标准害了大家还是大家害了标准,
- 英文文档:format(value[, format_spec])Convert a value to a “formatted” repr
- 最近网上流行着一些采集程序,更多人拿着这些东西在网上叫卖,很多不太懂的人看着那些程序眼羡,其实如果你懂一些ASP,了解自动采集程序的原理后,
- 引子如今很多云原生系统、分布式系统,例如 Kubernetes,都是用 Go 语言写的,这是因为 Go 语言天然支持异步编程,而且静态语言能
- 折腾了一天的时间,才弄出点眉目来。 做AJAX应用或Flash应用,提交中文内容到后台,涉及到编码解码(encode、decode)及编码格
- Python heapqheapq 库是 Python 标准库之一,提供了构建小顶堆的方法和一些对小顶堆的基本操作方法(如入堆,出堆等),可
- Python sorted() 函数sorted() 函数对所有可迭代的对象进行排序操作sorted 语法:sorted(iterable,
- 爬取过程:你好,李焕英 短评的URL:https://movie.douban.com/subject/34841067/comments?
- 简单的2048小游戏不多说,直接上图,这里并未实现GUI之类的,需要的话,可自行实现:接下来就是代码模块,其中的2048游戏原来网络上有很多
- 特别是linux系统,装了多个python,有时候找不到python的绝对路径,有时候装了个django,又找不到django安装到哪里了。
- 本文实例讲述了python切片的步进、添加、连接简单操作。分享给大家供大家参考,具体如下:步进切片:#coding:utf-8a="
- 随着短视频的大火,不仅可以给人们带来娱乐,还有热点新闻时事以及各种知识,刷短视频也逐渐成为了日常生活的一部分。本文以一个简单的小例子,简述如
- datetime64与unix时间戳互转在用pandas处理数据时,经常要处理一些时间类型数据,经常把pandas时间类型与datetime