用python的seaborn画数值箱型图
作者:林老头ss 发布时间:2021-04-26 20:43:04
一、概念介绍
箱型图(box-plot),又称为箱线图,盒型图,盒须图。在数据探索阶段或者描述性分析过程中,我们常常用于展示多类连续型数据的数值分布情况,便于类间对比和快速识别异常值。
在一幅箱型图中,一个连续数值序列构成一个盒子,如下所示。
每一个盒子主要展示的是数据的上四分位数Q1(25%),中位数(50%),下四分位数Q3(75%)。划分异常值的界限我们称为上下极限,其离Q1,Q3分别是1.5IQR(IQR=Q3-Q1,称作四分位距)的距离,在上下极限之外的点,我们称为异常点。异常值在不同场景中受到不同的重视,如果是要研究目标群体的薪资水平,我们常常关注中位数和IQR,而不关注异常值。
二、数据展示
借助爬虫技术,我们在某个时间的boss直聘首页随机获取了八个城市的三类检索词(数据分析师、数据挖掘工程师、算法工程师)的职位发布信息。一共得到的excel表如下所示。
每一个表内的数据如下:
(其中平均月薪的计算是简单地通过区间中位数*薪期/12得到,如8k-10k*16薪,则平均月薪为12000.
三、数据导入
只需要导入每一个表格中的 职位名称 和 平均月薪 列。
import pandas as pd
city8_fullname = ['北京','重庆','武汉','深圳','南京','广州','成都','上海']
job_type = ['数据分析师','数据挖掘工程师','算法工程师']
salary_dic = {}
for i in range(len(city8_fullname)):
df = pd.DataFrame(pd.read_excel('./Boss直聘数据-八个城市/Boss直聘-'+city8_fullname[i]+'.xls'))
salary_dic[city8_fullname[i]] = df[['职位名称','平均月薪']]
salary_dic[city8_fullname[i]]['城市'] = pd.Series([city8_fullname[i]]*df.shape[0])
## 整合成画图需要的格式
salary = salary_dic[city8_fullname[0]]
for i in range(1,8):
salary = pd.concat([salary,salary_dic[city8_fullname[i]]],ignore_index="true")
得到的数据结构为:
四、画图
这里,我们使用的是python语言,借助seaborn包完成。
import matplotlib.pyplot as plt
import seaborn as sns
# 中文与正负号显示设置
plt.rcParams['font.sans-serif'] = 'Microsoft YaHei'
plt.rcParams['axes.unicode_minus'] = False
# Draw
plt.figure(figsize=(14,8), dpi= 100)
sns.boxplot(x='城市', y='平均月薪', data=salary, hue='职位名称')
sns.stripplot(x='城市', y='平均月薪', data=salary, color='black', size=2, jitter=1)
for i in range(len(salary['城市'].unique())-1):
plt.vlines(i+.5, 10, 45, linestyles='solid', colors='gray', alpha=0.2)
plt.title('八大城市对口专业薪资分布', fontsize=20)
plt.legend(title='职位类型')
plt.xticks(fontsize=14)
plt.xlabel('城市',fontsize=16)
plt.ylabel('平均月薪',fontsize=16)
plt.yticks(fontsize=14)
plt.savefig(r'./绘图结果/薪资-薪资分布-箱线图.png')
sns.stripplot------用于画分布散点图(如果是大样本的话不适用,但有一种一半密度一半箱型的类别,可以避免散点覆盖的情况 )
plt.vlines-----画辅助线
hue-----可以理解为有多少组,在这里相当于出去城市外的第二个维度的分类。
结果图为:
上图中,我们是在箱型图的基础上加了散点的,目的在于了解各城市薪资的数值集中分布情况。
来源:https://blog.csdn.net/qq_45400322/article/details/122511125
猜你喜欢
- 方法1:使用Python中自带的print输出带有颜色或者背景的字符串书写语法print(\033[显示方式;前景色;背景色m输出内容\03
- 分页一般和表格一起用,分页链接作为表格的一部分,将分页链接封装成一个独立的组件,然后作为子组件嵌入到表格组件中,这样比较合理。效果:代码:1
- 定义计算N的阶乘的函数1)使用循环计算阶乘def frac(n): r = 1 if n<=1:
- 一、InnoDB表级锁我们知道,InnoDB是支持行锁,但不是每次都获取行锁,如果不使用索引的,那还是获取的表锁。而且有的时候,我们希望直接
- python安装库的几种方法 在python项目开发的过程中,需要安装大大小小的库,本文会提供几种安装库的方法,总有
- 基于Python中求和函数sum的用法详解今天在看《集体编程智慧》这本书的时候,看到一段Python代码,当时是百思不得其解,总觉得是书中排
- 1.简介keplergl是由Uber开源的一款地理数据可视化工具,通过keplergl我们可以在Jupyter notebook中使用,可视
- 今天在修改 淘宝 宝贝详情页面的时候,发现页面在 Firefox 下遇到这样一个问题:链接用图片做背景,text-indent:-9999p
- 实现一个AuditLog的功能,是B/S结构专案。 每个用户可以登录系统,在程序中操作数据(添加,更新和删除)需要实现记录操作跟踪。是谁添加
- 在for i in iterator结构中,循环器每次返回的对象将赋予给i,直到循环结束。使用iter()内置函数,我们可以将诸如表、字典等
- 使用MySQL,目前你可以在三种基本数据库表格式间选择。当你创建一张表时,你可以告诉MySQL它应该对于表使用哪个表类型。MySQL将总是创
- Fabric是一个用Python开发的部署工具,最大特点是不用登录远程服务器,在本地运行远程命令,几行Python脚本就可以轻松部署。文档入
- 一、表单效验规则的使用1、自定义效验规则介绍是否必填: required: true || fasle
- 在开发中有些敏感接口,例如用户余额提现接口,需要考虑在并 * 况下接口是否会发生问题。如果用户将自己的多条提现请求同时发送到服务器,代码能否扛
- ?图解redis通信协议请求协议:请求协议一般格式:*<参数数量> CR LF$<参数 1 的字节数量> CR LF
- 上文:栅格:从混乱到秩序Jacci Howard Bear 的英文原文:http://desktoppub.about.com/od/gri
- 目录配置连接池SetMaxOpenConns方法SetMaxIdleConns方法SetConnMaxLifetime方法SetConnMa
- 微信这个东西估计宅男没几个不熟悉的吧,微信经过这么两年多的发展终于向开放平台跨出了友好的一步。蛋疼的以为微信会出一个详细的api等接口,兴奋
- 背景自从把我手上的任务全部转换成docker运行和管理之后,遇到了一系列的坑,这次是mysql备份的问题。原因是启动mysql镜像的时候没有
- 1.安装pyinstaller https://www.jb51.net/article/177160.htm2.安装pywin32 htt