Python可视化模块altair的使用详解
作者:俊欣 发布时间:2023-10-03 09:00:28
今天小编来和大家聊一下Python
当中的altair
可视化模块,并且通过调用该模块来绘制一些常见的图表,借助Altair,我们可以将更多的精力和时间放在理解数据本身以及数据的意义上面,从复杂的数据可视化过程中解脱出来。
Altair是啥
Altair被称为是统计可视化库,因为它可以通过分类汇总、数据变换、数据交互、图形复合等方式全面地认识数据、理解和分析数据,并且其安装的过程也是十分的简单,直接通过pip
命令来执行,如下
pip install altair
pip install vega_datasets
pip install altair_viewer
如果使用的是conda包管理器来安装Altair模块的话,代码如下
conda?install?-c?conda-forge?altair?vega_datasets
Altair初体验
我们先简单地来尝试绘制一个直方图,首先创建一个DataFrame
数据集,代码如下
df = pd.DataFrame({"brand":["iPhone","Xiaomi","HuaWei","Vivo"],
"profit(B)":[200,55,88,60]})
接下来便是绘制直方图的代码
import altair as alt
import pandas as pd
import altair_viewer
chart = alt.Chart(df).mark_bar().encode(x="brand:N",y="profit(B):Q")
# 展示数据,调用display()方法
altair_viewer.display(chart,inline=True)
output
从整个的语法结构来看,首先使用alt.Chart()
指定使用的数据集,然后使用实例方法mark_*()
绘图图表的样式,最后指定X轴和Y轴所代表的数据,可能大家会感到好奇,当中的N
以及Q
分别代表的是什么,这个是变量类型的缩写形式,换句话说,Altair
模块需要了解绘制图形所涉及的变量类型,只有这样,绘制的图形才是我们期望的效果。
其中的N
代表的是名义型的变量(Nominal
),例如手机的品牌都是一个个专有名词,而Q
代表的是数值型变量(Quantitative
),可以分为离散型数据(discrete
)和连续型数据(continuous
),除此之外还有时间序列型数据,缩写是T
以及次序型变量(O
),例如在网购过程当中的对商家的评级有1-5个星级。
图表的保存
最后的图表的保存,我们可以直接调用save()
方法来保存,将对象保存成HTML
文件,代码如下
chart.save("chart.html")
也可以保存成JSON
文件,从代码上来看十分的相类似
chart.save("chart.json")
当然我们也能够保存成图片格式的文件,如下图所示
Altair之进阶操作
我们在上面的基础之上,进一步的衍生和拓展,例如我们想要绘制一张水平方向的条形图,X
轴和Y
轴的数据互换,代码如下
chart = alt.Chart(df).mark_bar().encode(x="profit(B):Q", y="brand:N")
chart.save("chart1.html")
output
同时我们也来尝试绘制一张折线图,调用的是mark_line()
方法代码如下
## 创建一组新的数据,以日期为行索引值
np.random.seed(29)
value = np.random.randn(365)
data = np.cumsum(value)
date = pd.date_range(start="20220101", end="20221231")
df = pd.DataFrame({"num": data}, index=date)
line_chart = alt.Chart(df.reset_index()).mark_line().encode(x="index:T", y="num:Q")
line_chart.save("chart2.html")
output
我们还可以来绘制一张甘特图,通常在项目管理上面用到的比较多,X
轴添加的是时间日期,而Y
轴上表示的则是项目的进展,代码如下
project = [{"project": "Proj1", "start_time": "2022-01-16", "end_time": "2022-03-20"},
{"project": "Proj2", "start_time": "2022-04-12", "end_time": "2022-11-20"},
......
]
df = alt.Data(values=project)
chart = alt.Chart(df).mark_bar().encode(
alt.X("start_time:T",
axis=alt.Axis(format="%x",
formatType="time",
tickCount=3),
scale=alt.Scale(domain=[alt.DateTime(year=2022, month=1, date=1),
alt.DateTime(year=2022, month=12, date=1)])),
alt.X2("end_time:T"),
alt.Y("project:N", axis=alt.Axis(labelAlign="left",
labelFontSize=15,
labelOffset=0,
labelPadding=50)),
color=alt.Color("project:N", legend=alt.Legend(labelFontSize=12,
symbolOpacity=0.7,
titleFontSize=15)))
chart.save("chart_gantt.html")
output
从上图中我们看到团队当中正在做的几个项目,每个项目的进展程度不同,当然了,不同项目的时间跨度也不尽相同,表现在图表上面的话就显得十分的直观了。
紧接着,我们再来绘制散点图,调用的是mark_circle()
方法,代码如下
df = data.cars()
## 筛选出地区是“USA”也就是美国的乘用车数据
df_1 = alt.Chart(df).transform_filter(
alt.datum.Origin == "USA"
)
df = data.cars()
df_1 = alt.Chart(df).transform_filter(
alt.datum.Origin == "USA"
)
chart = df_1.mark_circle().encode(
alt.X("Horsepower:Q"),
alt.Y("Miles_per_Gallon:Q")
)
chart.save("chart_dots.html")
output
当然我们可以将其进一步的优化,让图表显得更加美观一些,添加一些颜色上去,代码如下
chart = df_1.mark_circle(color=alt.RadialGradient("radial",[alt.GradientStop("white", 0.0),
alt.GradientStop("red", 1.0)]),
size=160).encode(
alt.X("Horsepower:Q", scale=alt.Scale(zero=False,padding=20)),
alt.Y("Miles_per_Gallon:Q", scale=alt.Scale(zero=False,padding=20))
)
output
我们更改散点的大小,不同散点的大小代表着不同的值,代码如下
chart = df_1.mark_circle(color=alt.RadialGradient("radial",[alt.GradientStop("white", 0.0),
alt.GradientStop("red", 1.0)]),
size=160).encode(
alt.X("Horsepower:Q", scale=alt.Scale(zero=False, padding=20)),
alt.Y("Miles_per_Gallon:Q", scale=alt.Scale(zero=False, padding=20)),
size="Acceleration:Q"
)
output
来源:https://mp.weixin.qq.com/s/ROG67W_a6w0STSJJ_SaWnQ
猜你喜欢
- __add__(), 同一个类,两个对象相加的实现逻辑,重写 +class Myclass(object): &n
- 关于SQL Server数据库的一切信息都保存在它的系统表格里。我怀疑你是否花过比较多的时间来检查系统表格,因为你总是忙于用户表格。但是,你
- 最近使用python里的matplotlib库绘图,想在代码结束时显示图片看看,结果图片一闪而过,附上我原来代码:import matplo
- 这篇文章主要介绍了如何使用python3获取当前路径及os.path.dirname的使用,文中通过示例代码介绍的非常详细,对大家的学习或者
- 看到类似__slots__这种形如__xxx__的变量或者函数名就要注意,这些在Python中是有特殊用途的。__slots__我们已经知道
- 默认情况下,SQL Server 保存 7 个 ErrorLog 文件,名为: ErrorLog ErrorLog.1 ErrorLog.2
- Python是一种计算机程序设计语言,一种面向对象的动态类型语言,一种脚本语言。最初被设计用于编写自动化脚本(shell)的,常用于各种服务
- 目录一、问题具体描述:二、解决方法1、方法一:在PyCharm下载第三方库(即把之前下的库作废,这里重新再下一次……)2、方法二:坚持用pi
- 摘要在上一篇文章,时间日期处理的入门里面,我们简单介绍了一下载pandas里对时间日期的简单操作。下面将补充一些常用方法。时间日期的比较假设
- 昨天我突发奇想,想用display:inline来实现三列的布局可是搞了半天就是不行。但是理论上是可以的呀(后来才发现是不理解的不深刻,我的
- MySQL ERROR 1045 (28000): Access denied for user 'root'@'l
- 业务场景:在后台管理系统表格模块中,我们请求回来的数据类似性别等等,后台给我们返的不是男,或者女,而是给我们返回的是0和1,或者是A和B;但
- 栅格系统的形成1692年,新登基的法国国王路易十四感到法国的印刷水平强差人意,因此命令成立一个管理印刷的皇家特别委员会。他们的首要任务是设计
- 1.sorted函数按key值对字典排序先来基本介绍一下sorted函数,sorted(iterable,key,reverse),sort
- 本文实例为大家分享了vue实现表单录入的具体代码,供大家参考,具体内容如下最终效果:代码:<template> <div
- 如下所示:import matplotlib.pyplot as pltimport numpy as npimport mathdef g
- 主要是:前序遍历、中序遍历、后序遍历、层级遍历、非递归前序遍历、非递归中序遍历、非递归后序遍历#!/usr/bin/env python#-
- 1、simhash步骤simhash包含分词、hash、加权、合并、降维五大步骤simhash代码如下:import jiebaimport
- 1.第一个实例:HelloWorld1.编写python代码from flask import Flaskapp=Flask(__name_
- 多支付原理1.利用鸭子类型。规定前台传过来支付方式。pay_methon2.再支付方式里面实现pay(名字统一)方法3.回调函数,在支付方式