用python的seaborn画数值箱型图
作者:林老头ss 发布时间:2021-04-26 20:43:04
一、概念介绍
箱型图(box-plot),又称为箱线图,盒型图,盒须图。在数据探索阶段或者描述性分析过程中,我们常常用于展示多类连续型数据的数值分布情况,便于类间对比和快速识别异常值。
在一幅箱型图中,一个连续数值序列构成一个盒子,如下所示。
每一个盒子主要展示的是数据的上四分位数Q1(25%),中位数(50%),下四分位数Q3(75%)。划分异常值的界限我们称为上下极限,其离Q1,Q3分别是1.5IQR(IQR=Q3-Q1,称作四分位距)的距离,在上下极限之外的点,我们称为异常点。异常值在不同场景中受到不同的重视,如果是要研究目标群体的薪资水平,我们常常关注中位数和IQR,而不关注异常值。
二、数据展示
借助爬虫技术,我们在某个时间的boss直聘首页随机获取了八个城市的三类检索词(数据分析师、数据挖掘工程师、算法工程师)的职位发布信息。一共得到的excel表如下所示。
每一个表内的数据如下:
(其中平均月薪的计算是简单地通过区间中位数*薪期/12得到,如8k-10k*16薪,则平均月薪为12000.
三、数据导入
只需要导入每一个表格中的 职位名称 和 平均月薪 列。
import pandas as pd
city8_fullname = ['北京','重庆','武汉','深圳','南京','广州','成都','上海']
job_type = ['数据分析师','数据挖掘工程师','算法工程师']
salary_dic = {}
for i in range(len(city8_fullname)):
df = pd.DataFrame(pd.read_excel('./Boss直聘数据-八个城市/Boss直聘-'+city8_fullname[i]+'.xls'))
salary_dic[city8_fullname[i]] = df[['职位名称','平均月薪']]
salary_dic[city8_fullname[i]]['城市'] = pd.Series([city8_fullname[i]]*df.shape[0])
## 整合成画图需要的格式
salary = salary_dic[city8_fullname[0]]
for i in range(1,8):
salary = pd.concat([salary,salary_dic[city8_fullname[i]]],ignore_index="true")
得到的数据结构为:
四、画图
这里,我们使用的是python语言,借助seaborn包完成。
import matplotlib.pyplot as plt
import seaborn as sns
# 中文与正负号显示设置
plt.rcParams['font.sans-serif'] = 'Microsoft YaHei'
plt.rcParams['axes.unicode_minus'] = False
# Draw
plt.figure(figsize=(14,8), dpi= 100)
sns.boxplot(x='城市', y='平均月薪', data=salary, hue='职位名称')
sns.stripplot(x='城市', y='平均月薪', data=salary, color='black', size=2, jitter=1)
for i in range(len(salary['城市'].unique())-1):
plt.vlines(i+.5, 10, 45, linestyles='solid', colors='gray', alpha=0.2)
plt.title('八大城市对口专业薪资分布', fontsize=20)
plt.legend(title='职位类型')
plt.xticks(fontsize=14)
plt.xlabel('城市',fontsize=16)
plt.ylabel('平均月薪',fontsize=16)
plt.yticks(fontsize=14)
plt.savefig(r'./绘图结果/薪资-薪资分布-箱线图.png')
sns.stripplot------用于画分布散点图(如果是大样本的话不适用,但有一种一半密度一半箱型的类别,可以避免散点覆盖的情况 )
plt.vlines-----画辅助线
hue-----可以理解为有多少组,在这里相当于出去城市外的第二个维度的分类。
结果图为:
上图中,我们是在箱型图的基础上加了散点的,目的在于了解各城市薪资的数值集中分布情况。
来源:https://blog.csdn.net/qq_45400322/article/details/122511125
猜你喜欢
- 阅读上一篇:FrontPage XP设计教程3——网页的布局 FrontPage XP可以保证用户设计网页与不同的浏览器兼容,它所提供的样式
- 前段时间在网上找了一个“完美的”JavaScript对象克隆的函数,感觉还不错,但随后便出现了一些问题,发现这个克隆并不好用,在使用发现了如
- 不知道写得对不对啊!错了再改吧!加密函数Function Encodestr(s,xorstr)Dim enFor&nb
- 一、Selects检索表中的所有行$users = DB::table('users')->get();foreach
- 春节休息了几天,今天上班第一天,最近混twitter混得比较多,经常要压缩URL,以前做了个书签用http://is.gd/压缩,后来发现了
- 本文实例讲述了PHP实现绘制二叉树图形显示功能。分享给大家供大家参考,具体如下:前言:最近老师布置了一个作业:理解并实现平衡二叉树和红黑树,
- 阅读上一篇:垂直栅格与渐进式行距(上) 新问题来也匆匆,去也“冲冲”。距上次发布垂直栅格与渐进式行距(上)发布,已经不知不觉过去了
- /*Bresenham画圆算法*/var arc = function(x0,y0,r){/*起点坐标x0,y
- 使用图层可以像素为单位精确定位页面元素,并且可以将层放置在页面的任意位置。当把页面元素放入图层之中时,还可以控制哪个显示在前面、哪个显示在后
- 代码如下:'返回某年总共有多少天 Function DayOfYear(ByVal y) DayOfYear = DatePart(
- 表单递交合法性检测-只接受数字。如下代码加入HTML的<head>区:<SCRIPT LANGUAGE=&quo
- python 如何实现Excel 的Vlookup功能1、Excel 中VLOOKUP具体步骤Excel 中的VLOOKUP使用说明采用下面
- 简介Go的标准包Container中包含了常用的容器类型,包括conatiner/list,container/heap,container
- 原始结构:Column1 Column2----------- ----------1 A1 B2 C2 D2 E3 F查询效果:Colum
- SQL中的单记录函数 1.ASCII 返回与指定的字符对应的十进制数; SQL> select ascii('A')
- 场景一:A网站全站均为UTF-8编码,B网站全站为GB2312编码。A网站提供一段JS代码供B网站调用,该代码会动态生成一个FORM表单,以
- 先看看单条 SQL 语句的分页 SQL 吧。 方法1: 适用于 SQL Server 2000/2005 代码如下:SELECT TOP 页
- Python 如何转换string到float?简单几步,让你轻松解决。打开软件,新建python项目,如图所示右键菜单中创建.py文件,如
- 最近了解了下repaint和reflow的相关知识,觉得在页面重构过程中就应该考虑前端开发(js)人员对dom进行操作,能够减轻客户浏览器的
- 在风起云涌的互联网浪潮中,产品迭代的速度越来越快。随着用户需求的激增,也不断带来了对设计师能力要求的提高。初入交互设计领域几年来,明显发现可