Python中的pandas库简介及其使用教程
作者:搞点學術的研究生 发布时间:2022-02-10 17:11:12
标签:Python,pandas,库,使用
pandas模块
pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。
便捷的数据处理能力
独特的数据结构
读取文件方便
封装了matplotlib的画图和numpy的计算
Pandas中常见的数据结构有两种:
Series | DateFrame |
---|---|
类似一维数组的对象, | 类似多维数组/表格数组;每列数据可以是不同的类型;索引包括列索引和行索引。 |
Series
构建Series:
ser_obj = pd.Series(range(10))
由索引和数据组成(索引在左<自动创建的>,数据在右)。
获取数据和索引:
ser_obj.index; ser_obj.values
预览数据:
ser_obj.head(n);ser_obj.tail(n)
DateFrame
获取列数据:
df_obj[col_idx]或df_obj.col_idx
增加列数据:
df_obj[new_col_idx] = data
删除列:
del df_obj[col_idx]
按值排序:
sort_values(by = “label_name”)
常用方法
Count | 非NA值得数量 |
---|---|
describe | 针对Series或各DataFrame列计算汇总统计 |
min\max | 计算最小值和最大值 |
argmin\argmax | 计算能够获取到最大值或最小值的索引位置 |
idxmin\idxmax | 计算能够获取到最小值和最大值的索引值 |
quantile | 计算样本的分位数(0-1) |
sum | 值得总和 |
mean | 值得平均值 |
median | 值的算术中位数(50%分位数) |
mad | 根据平均值计算平均绝对离差 |
var | 样本值得方差 |
std | 样本值得标准差 |
skew | 样本值的偏度(三阶距) |
kurt | 样本值的峰度(四阶距) |
cumsum | 样本值的累计和 |
cummin\cummax | 样本值的累计最大值和累计最小值 |
cumprod | 样本值的累计积 |
diff | 计算一阶差分(对时间序列很有用) |
pct_change | 计算百分数变化 |
处理缺失数据
Dropna()丢弃缺失数据
Fillna()填充缺失数据
数据过滤
Df[filter_condition]依据filter_condition(条件)对Df(数据)进行过滤。
绘图功能
Plot(kind,x,y,title,figsize)
Kind(绘制什么形式的图),x(x轴内容),y(y轴内容),title(图标题),figsize(图大小)
保存图片:plt.savefig()
("The fool doth think he is wise, but the wise man knows himself to be a fool." --威廉·莎士比亚
)
来源:https://blog.csdn.net/cjx14060307101/article/details/89023715
0
投稿
猜你喜欢
- 这几天一直在看《Pro JavaScript Techniques》,书中有不少优美、健壮代码,让我不得不惊叹老外对语言这东西的研究程度之深
- 前端技术层(图片有点偏激,仅供参考)Javascript和DOM关系很暧昧,弄不明白!CSS和HTML
- #!/usr/bin/env python#coding=utf-8import osfrom pyinotify import Watch
- 网络下载的python代码,版本参差,从python2.x迁移python3.x的过程中,存在print语法问题,即python2.x中pr
- 环境:Windows, Python2.7一维情况:<span style="font-size:14px;"&g
- 本文实例为大家分享了python+opencv实现霍夫变换检测直线的具体代码,供大家参考,具体内容如下python+opencv实现高斯平滑
- [编者注:]提起数据库,第一个想到的公司,一般都会是Oracle(即甲骨文公司)。Oracle在数据库领域一直处于领先地位。Oracle关系
- 使用Python IDLE时发现并没有清空当前窗口的快捷键,也没有像 clear 这样的命令,使用非常不便。新建一个 ClearWindow
- 本文实例讲述了Python面向对象之私有属性和私有方法。分享给大家供大家参考,具体如下:01. 应用场景及定义方式应用场景在实际开发中,对象
- 内容摘要:本文介绍了使用js来实现下拉伸缩导航菜单的功能,并带有渐显的效果,值得收藏。正好这几天公司不忙,学校又没有事情,所以想抽空架一个个
- 优点:兼容性很好,而且俺觉得不应该有什么拦截工具可以拦截下来优点:代码非常短缺点:必须在页面点击后才会弹出demo:运行代码框<hea
- 看到有人用的PJBlog使用的是自动填写验证码,这样其实也不使用验证码基本上没有什么区别,很容易被 * ,因此在参照许多修改的基础上,找到
- 以下的实例为去除指定表中数据类型是VARCHAR,CHAR,NVARCHAR的字段值中的不可见字符。 注释:此处只去掉前后的不可见字符,不包
- 设计思路本文整理归纳以往的工作中用到的东西,现汇总成基础测试框架提供分享。框架采用python3 + selenium3 + PO + ya
- 假如不使用INSTEAD OF触发器或可更新分区视图而是通过视图来修改数据,那么再修改之前,请考虑下列准则:◆如果在视图定义中使用了 WIT
- 对所有数据进行整合与管理当你使用SQL Server 2008企业级的数据仓库平台时,你可以高效的操纵所有数据,并对其进行统一管理存储。◆合
- 示例:《电影类型分类》获取数据来源电影名称打斗次数接吻次数电影类型California Man3104RomanceHe's Not
- 我的数据库如图结构我取了其中的name age nr,做成array,只要所取数据存在str型,那么取出的数据,全部转化为str型,也就是a
- Semantics可翻译为语义的(学),它是Html/Xhtml是否真正符合标准的重要一环。Jorux在这和大家讨论一些自己的观点,如有不妥
- 治標不治本的就是將php.ini內的reporting部份修改,讓notice不顯示 error_reporting = E_ALL; di