pandas应用实例之pivot函数详解
作者:superY25 发布时间:2021-02-16 18:33:18
标签:pandas,pivot,函数
1、pivot函数的定义
pivot(index=None,columns=None,values=None) -> DataFrame
2、pivot函数的说明
通过给定的索引(index)和列(column)的值重新生一个DataFrame对象。
根据列值对数据进行整形(生成一个“透视”表)。从指定的索引/列中使用唯一的值来形成结果数据帧的轴。此函数不支持数据聚合,多个值将导致列中的多索引。
3、pivo函数的参数
index:指定一列做为生成DataFrame对象的索引,如果为空则默认为原来的索引。
columns:指定一列的值作为列名,必须传值。
values:指定一列作为生成DataFrame对象的值。可以为空。
4、pivot函数实例
df = pd.DataFrame({'foo': ['one', 'one', 'one', 'two', 'two', 'two'],
'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
'baz': [1, 2, 3, 4, 5, 6],
'zoo': ['x', 'y', 'z', 'q', 'w', 't']})
# 指定foo的值为新dataframe的index,bar的值为columns,dataframe中对应的值为baz
df.pivot(index='foo', columns='bar', values='baz')
# 没有指定value,列名最外层保留原来的列,如下结果baz和zoo为原dataframe中的列名,新指定的列名bar在里层(暂时这么理解)。
df.pivot(index='foo', columns='bar')
# 可以通过索引的方式取指定的列数据
df.pivot(index='foo', columns='bar')['baz']
# 可以指定多个values
df.pivot(index='foo', columns='bar', values=['baz', 'zoo'])
# 指定多个columns
df.pivot(index='foo', columns=['bar','baz'], values=['zoo'])
# 指定多个index
df.pivot(index=['foo','bar'], columns='baz', values='zoo')
# 指定多个index可以通过index名取当个index的数据
df.pivot(index=['foo','bar'], columns='baz', values='zoo').loc["one",:]
# 这两行代码运行将会报错。
# 报错提示:ValueError: Index contains duplicate entries, cannot reshape
# 意思是指定的索引one有两个列bar=A冲突了。
df = pd.DataFrame({"foo": ['one', 'one', 'two', 'two'],
"bar": ['A', 'A', 'B', 'C'],
"baz": [1, 2, 3, 4]})
df.pivot(index='foo', columns='bar', values='baz')
5、pivot函数在实际工作中解决的案例
现在要上图中的不同code之间从2020-11-16到2020-11-18三天内num序列数的相关性。
首先,dataframe对象可以直接调用函数corr()计算不同列之间的相关性,所以现在需要将原始的dataframe对象转换成以code为列,date为索引,num为值的dataframe。
第一种比较笨的方法就是循环,此方法不但代码量较多而且在数据量很大时会比较耗时。不建议使用。
grouped = df.groupby(by=["code"])
df_num = pd.DataFrame()
for name,group in grouped:
d = pd.Series(data=group["num"].values,name=name)
df_num = pd.concat([df_num,d],axis=1)
df_close
第二种方法就是使用pivot函数,一行代码解决,运行快速。
df_num = df.pivot(index='date',columns='code',values='num')
想要的形式的dataframe生成了就可以直接调用corr()函数直接求出code之间的相关性了
# 计算列之间的相关性
df_num.corr()
来源:https://blog.csdn.net/superY_26/article/details/112689493


猜你喜欢
- 前言这篇文章介绍一下 递归,递归的本质是将原来的问题转化为更小的同一个问题,解决这些更小问题的过程。下面通过两个递归的例子帮助学习对递归的理
- --返回由备份集内包含的数据库和日志文件列表组成的结果集。 --主要获得逻辑文件名 restore filelistonly from di
- 一、适合创建索引1、字段的数值有唯一性限制根据Alibaba规范,指明在业务上具有唯一特性的字段,即使是组合字段,也必须建成唯一索引。例如,
- 在学习pygame模块过程中,我们可以通过使用 pygame模块实现很多功能性的东西,但是很多人应该没有利用pygame实现过雪花飘落的效果
- 一.使用Python为二年级的学生批量生成数学题1.1 背景我妹妹今年上二年级,她的老师今天给他们布置了一项作业:从今天起到开学,每天坚持做
- 发现问题pandas版本0.25.3import pandas as pdsymbol_info_columns = ['1'
- 无意中看到一位学员的屏保,感觉挺有意思的,就把它实现了下来效果如下:<!DOCTYPE html PUBLIC "-//W3
- 本文实例讲述了Python上下文管理器类和上下文管理器装饰器contextmanager用法。分享给大家供大家参考,具体如下:一. 什么是上
- 本文实例为大家分享了基于神经卷积网络的人脸识别,供大家参考,具体内容如下1.人脸识别整体设计方案客_服交互流程图:2.服务端代码展示sk =
- 目录一、IPO模型 二、基本输入 - input()函数1、函数格式2、参数说明3、实例演示(1)接收字符串数据(2)接收整型数据
- 在使用element-ui的时候,有一个常用的组件,那就是el-popover,但是element-ui官方文档中样式跟用法都比较局限,在使
- 本文实例讲述了Python使用Matplotlib模块时坐标轴标题中文及各种特殊符号显示方法。分享给大家供大家参考,具体如下:Matplot
- 目录表示时间的方式1. 调用语法:2. time概述3. 时间获取4. 时间格式化(将时间以合理的方式展示出来)5. 程序计时应用6. 示例
- /** * 类说明:对MYSQL数据库的操作类 */ using System; using System.Data; using MySq
- 写在前面的话基于dlib库的模型,实现人脸识别和焦点人物的检测。最后呈现的效果为焦点人物的识别框颜色与其他人物框不一样。准备工作需要安装好p
- 对于非连续数据集,数据可视化时候需要每七天一个采样点。要求是选择此前最新的数据作为当日的数据展示,譬如今天是2019-06-18,而数据集里
- 四年前写的一个内容管理系统,应用在公司内部网上,昨天DBA说其中的SQL语句未使用参数化的调用,导致服务器负担加重,资源占用大。并列出了几个
- 前几天,酋长同学在日志里提到了关于Google宽松的管理制度,一个产品任务下来是没有时间限制的,Google深信在有时间限制下的产品肯定是不
- 这一版,对虹软的功能进行了一些封装,添加了人脸特征比对,比对结果保存到文件,和从文件提取特征进行比对,大体功能基本都已经实现,可以进行下一步
- 以下内容给大家c#连接数据库的方法的相关介绍,本文非常具有参考借鉴价值,具体详情如下所示。ASP.NET连接数据库的技术叫ADO.NET,它