位置：首页>> 网络编程>> Python编程>> 五个Pandas 实战案例带你分析操作数据

五个Pandas 实战案例带你分析操作数据

作者：Python学习与数据挖掘　　发布时间：2021-04-02 18:46:05　

标签：Pandas,分析数据,实战

大家好，之前分享过很多关于 Pandas 的文章，今天我给大家分享5个小而美的 Pandas 实战案例。

内容主要分为：

如何自行模拟数据
多种数据处理方式
数据统计与可视化
用户RFM模型
用户复购周期

构建数据

本案例中用的数据是小编自行模拟的，主要包含两个数据：订单数据和水果信息数据，并且会将两份数据合并

import pandas as pd
import numpy as np
import random
from datetime import *
import time

import plotly.express as px
import plotly.graph_objects as go
import plotly as py

# 绘制子图
from plotly.subplots import make_subplots

1、时间字段

2、水果和用户

3、生成订单数据

order = pd.DataFrame({
"time":time_range, # 下单时间
"fruit":fruit_list, # 水果名称
"name":name_list, # 顾客名
# 购买量
"kilogram":np.random.choice(list(range(50,100)), size=len(time_range),replace=True)
})

order

4、生成水果的信息数据

infortmation = pd.DataFrame({
"fruit":fruits,
"price":[3.8, 8.9, 12.8, 6.8, 15.8, 4.9, 5.8, 7],
"region":["华南","华北","西北","华中","西北","华南","华北","华中"]
})

infortmation

5、数据合并

将订单信息和水果信息直接合并成一个完整的DataFrame，这个df就是接下来处理的数据

6、生成新的字段：订单金额

到这里你可以学到：

如何生成时间相关的数据
如何从列表（可迭代对象）中生成随机数据
Pandas的DataFrame自行创建，包含生成新字段
Pandas数据合并

分析维度1：时间

2019-2021年每月销量走势

1、先把年份和月份提取出来：

df["year"] = df["time"].dt.year
df["month"] = df["time"].dt.month
# 同时提取年份和月份
df["year_month"] = df["time"].dt.strftime('％Y％m')

df

2、查看字段类型：

3、分年月统计并展示：

# 分年月统计销量
df1 = df.groupby(["year_month"])["kilogram"].sum().reset_index()

fig = px.bar(df1,x="year_month",y="kilogram",color="kilogram")
fig.update_layout(xaxis_tickangle=45) # 倾斜角度

fig.show()

2019-2021销售额走势

df2 = df.groupby(["year_month"])["amount"].sum().reset_index()

df2["amount"] = df2["amount"].apply(lambda x:round(x,2))

fig = go.Figure()
fig.add_trace(go.Scatter( #
x=df2["year_month"],
y=df2["amount"],
mode='lines+markers', # mode模式选择
name='lines')) # 名字

fig.update_layout(xaxis_tickangle=45) # 倾斜角度

fig.show()

年度销量、销售额和平均销售额

分析维度2：商品

水果年度销量占比

df4 = df.groupby(["year","fruit"]).agg({"kilogram":"sum","amount":"sum"}).reset_index()
df4["year"] = df4["year"].astype(str)
df4["amount"] = df4["amount"].apply(lambda x: round(x,2))

from plotly.subplots import make_subplots
import plotly.graph_objects as go

fig = make_subplots(
rows=1,
cols=3,
subplot_titles=["2019年","2020年","2021年"],
specs=[[{"type": "domain"}, # 通过type来指定类型
{"type": "domain"},
{"type": "domain"}]]
)

years = df4["year"].unique().tolist()

for i, year in enumerate(years):
name = df4[df4["year"] == year].fruit
value = df4[df4["year"] == year].kilogram

fig.add_traces(go.Pie(labels=name,
values=value
),
rows=1,cols=i+1
)

fig.update_traces(
textposition='inside', # 'inside','outside','auto','none'
textinfo='percent+label',
insidetextorientation='radial', # horizontal、radial、tangential
hole=.3,
hoverinfo="label+percent+name"
)

fig.show()

各水果年度销售金额对比

years = df4["year"].unique().tolist()

for _, year in enumerate(years):

df5 = df4[df4["year"]==year]
fig = go.Figure(go.Treemap(
labels = df5["fruit"].tolist(),
parents = df5["year"].tolist(),
values = df5["amount"].tolist(),
textinfo = "label+value+percent root"
))

fig.show()

商品月度销量变化

fig = px.bar(df5,x="year_month",y="amount",color="fruit")
fig.update_layout(xaxis_tickangle=45) # 倾斜角度
fig.show()

折线图展示的变化：

分析维度3：地区

不同地区的销量

不同地区年度平均销售额

df7 = df.groupby(["year","region"])["amount"].mean().reset_index()

分析维度4：用户

用户订单量、金额对比

df8 = df.groupby(["name"]).agg({"time":"count","amount":"sum"}).reset_index().rename(columns={"time":"order_number"})
df8.style.background_gradient(cmap="Spectral_r")

用户水果喜好

根据每个用户对每种水果的订单量和订单金额来分析：

df9 = df.groupby(["name","fruit"]).agg({"time":"count","amount":"sum"}).reset_index().rename(columns={"time":"number"})

df10 = df9.sort_values(["name","number","amount"],ascending=[True,False,False])

df10.style.bar(subset=["number","amount"],color="#a97fcf")