Python爬取数据并实现可视化代码解析
作者:悄悄成长 发布时间:2023-08-27 07:33:02
标签:Python,数据,可视化
这次主要是爬了京东上一双鞋的相关评论:将数据保存到excel中并可视化展示相应的信息
主要的python代码如下:
文件1
#将excel中的数据进行读取分析
import openpyxl
import matplotlib.pyplot as pit #数据统计用的
wk=openpyxl.load_workbook('销售数据.xlsx')
sheet=wk.active #获取活动表
#获取最大行数和最大列数
rows=sheet.max_row
cols=sheet.max_column
lst=[] #用于存储鞋子码数
for i in range (2,rows+1):
size=sheet.cell(i,3).value
lst.append(size)
#以上已经将excel中的数据读取完毕
#一下操作就你行统计不同码数的数量
'''python中有一个数据结构叫做字典,使用鞋码做key,使用销售数量做value'''
dic_size={}
for item in lst:
dic_size[item]=0
for item in lst:
for size in dic_size:
#遍历字典
if item==size:
dic_size[size]+=1
break
for item in dic_size:
print(item,dic_size[item])
#弄成百分比的形式
lst_total=[]
for item in dic_size:
lst_total.append([item,dic_size[item],dic_size[item]/160*1.0])
#接下来进行数据的可视化(进行画饼操作)
labels=[item[0] +'码'for item in lst_total] #使用列表生成式,得到饼图的标签
fraces=[item[2] for item in lst_total] #饼图中的数据源
pit.rcParams['font.family']=['SimHei'] #单独的表格乱码的处理方式
pit.pie(x=fraces,labels=labels,autopct='%1.1f%%')
#pit.show()进行结果的图片的展示
pit.savefig('图.jpg')
文件2
#所涉及到的是requests和openpyxl数据的存储和数据的清洗以及统计然后就是matplotlib进行数据的可视化
#静态数据点击element中点击发现在html中,服务器已经渲染好的内容,直接发给浏览器,浏览器解释执行,
#动态数据:如果点击下一页。我们的地址栏(加后缀但是前面的地址栏没变也算)(也可以点击2和3页)没有发生任何变化说明是动态数据,说明我们的数据是后来被渲染到html中的。他的数据根本不在html中的。
#动态查看network然后用的url是network里面的headers
#安装第三方模块输入cmd之后pip install 加名字例如requests
import requests
import re
import time
import json
import openpyxl #用于操作 excel文件的
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'}#创建头部信息
def get_comments(productId,page):
url = "https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId={0}&score=0&sortType=5&page={1}&pageSize=10&isShadowSku=0&fold=1".format(productId,page)
resp = requests.get(url, headers=headers)
s=resp.text.replace('fetchJSON_comment98(','')#进行替换操作。获取到所需要的相应的json,也就是去掉前后没用的东西
s=s.replace(');','')
json_data=json.loads(s)#进行数据json转换
return json_data
#获取最大页数
def get_max_page(productId):
dis_data=get_comments(productId,0)#调用刚才写的函数进行向服务器的访问请求,获取字典数据
return dis_data['maxPage']#获取他的最大页数。每一页都有最大页数
#进行数据提取
def get_info(productId):
max_page=get_max_page(productId)
lst=[]#用于存储提取到的商品数据
for page in range(1,max_page+1):
#获取没页的商品评论
comments=get_comments(productId,page)
comm_list=comments['comments']#根据comnents获取到评论的列表(每页有10条评论)
#遍历评论列表,获取其中的相应的数据
for item in comm_list:
#每条评论分别是一字典。在继续通过key来获取值
content=item['content']
color=item['productColor']
size=item['productSize']
lst.append([content,color,size])#将每条评论添加到列表当中
time.sleep(3)#防止被京东封ip进行一个时间延迟。防止访问次数太频繁
save(lst)
def save(lst):
#把爬取到的数据进行存储,保存到excel中
wk=openpyxl.Workbook()#用于创建工作簿对象
sheet=wk.active #获取活动表(一个工作簿有三个表)
#遍历列表将数据添加到excel中。列表中的一条数据在表中是一行
biaotou='评论','颜色','大小'
sheet.append(biaotou)
for item in lst:
sheet.append(item)
#将excel保存到磁盘上
wk.save('销售数据.xlsx')
if __name__=='__main__':
productId='66749071789'
get_info(productId)
print("ok")
实现的效果如下:
来源:https://www.cnblogs.com/dazhi151/p/13404915.html
0
投稿
猜你喜欢
- 项目说明开发php项目管理系统,由于是新项目且已经部署在生产环境,导致需要根据实际使用情况,进行及时的功能升级或bug修复。每次升级,进行程
- 根据代码中运行的结果来看,主要由以下几种:1. sum():将array中每个元素相加的结果2. axis对应的是维度的相加。比如:1、ax
- 在网上找了各种安装教程,都没有在python3下安装nltk,于是我自己尝试着安装,算是成功了1、首先,假设你的python3已经安装好,并
- 本文实例为大家分享了python五子棋游戏的具体代码,供大家参考,具体内容如下1.项目简介在刚刚学习完python套接字的时候做的一个五子棋
- 如下所示:#-*- coding:utf-8 -*-import numpy as npimport matplotlib.pyplot a
- 下面是IN条件运算符的SQL语句:SELECT column1, SUM(column2) FROM&nbs
- Instr函数与InstrRev函数大家都应该很熟悉,但是如果你看过《ASP * 站开发实践教程》,你应该注意一下。该书中介绍它们时是很有迷
- 利用二进制反格雷码(bynary reflected Gray code)的方式生成n个元素的全组合,Cn1+Cn2+...+Cnn,如在利
- 本节列出了可以运行MySQL的操作系统。我们使用GNU Autoconf,因此将MySQL移植到所有使用Posix线程和C++编译器的现代系
- 1.echo和print的区别PHP中echo和print的功能基本相同(输出),但是两者之间还是有细微差别的。echo输出后没有返回值,但
- 本文实例讲述了PHP中curl_setopt函数用法。分享给大家供大家参考。具体分析如下:curl_setopt函数是php中一个重要的函数
- 而今天我们要说的内容是:如果在网页中存在文件资源,如:图片,电影,文档等。怎样通过Python爬虫把这些资源下载下来。1、怎样在网上找资源:
- 一、框架菜单1.1 common模块1.2 其他二、Excel接口测试案例编写三、读取Excel测试封装(核心封装)excel_utils.
- 此文刊登在《程序员》2009年5月期:SQL全名是结构化查询语言(Structured Query Language),一直是后台开发者用来
- 通配符:通配符描述示例%包含零个或更多字符的任意字符串。WHERE title LIKE '%computer%' 将查找处
- 1、工厂模式在面向对象编程中,工厂模式是开发过程中最常用的设计模式之一,属于创建型模式,就是通过一个接口函数或对象来创建其他对象并返回,该模
- 前言:又到每日分享Python小技巧的时光了,今天给大家分享的是Python接口常用封装函数。相信对于封装,大家都不陌生吧,今天就用四个小案
- 引言 在前篇文章中(SQL查询入门(上篇),我对数据库查询的基本概念以及单表查询做了详细的解释,本篇文章中,主要说明SQL中的各种连接以及使
- python time模块计算时间之间的差距练习题1. 当前月1号对应的0点的时间戳# 定义一个当前月分的一号0点字符串格式的时间 now_
- 本文借用HTML的css语法,将样式表应用到窗口部件。这里只是个简单的例子,实际上样式表的语法很丰富。以下类似于css: StyleShee