Python中的pandas库简介及其使用教程
作者:搞点學術的研究生 发布时间:2022-02-10 17:11:12
标签:Python,pandas,库,使用
pandas模块
pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。
便捷的数据处理能力
独特的数据结构
读取文件方便
封装了matplotlib的画图和numpy的计算
Pandas中常见的数据结构有两种:
Series | DateFrame |
---|---|
类似一维数组的对象, | 类似多维数组/表格数组;每列数据可以是不同的类型;索引包括列索引和行索引。 |
Series
构建Series:
ser_obj = pd.Series(range(10))
由索引和数据组成(索引在左<自动创建的>,数据在右)。
获取数据和索引:
ser_obj.index; ser_obj.values
预览数据:
ser_obj.head(n);ser_obj.tail(n)
DateFrame
获取列数据:
df_obj[col_idx]或df_obj.col_idx
增加列数据:
df_obj[new_col_idx] = data
删除列:
del df_obj[col_idx]
按值排序:
sort_values(by = “label_name”)
常用方法
Count | 非NA值得数量 |
---|---|
describe | 针对Series或各DataFrame列计算汇总统计 |
min\max | 计算最小值和最大值 |
argmin\argmax | 计算能够获取到最大值或最小值的索引位置 |
idxmin\idxmax | 计算能够获取到最小值和最大值的索引值 |
quantile | 计算样本的分位数(0-1) |
sum | 值得总和 |
mean | 值得平均值 |
median | 值的算术中位数(50%分位数) |
mad | 根据平均值计算平均绝对离差 |
var | 样本值得方差 |
std | 样本值得标准差 |
skew | 样本值的偏度(三阶距) |
kurt | 样本值的峰度(四阶距) |
cumsum | 样本值的累计和 |
cummin\cummax | 样本值的累计最大值和累计最小值 |
cumprod | 样本值的累计积 |
diff | 计算一阶差分(对时间序列很有用) |
pct_change | 计算百分数变化 |
处理缺失数据
Dropna()丢弃缺失数据
Fillna()填充缺失数据
数据过滤
Df[filter_condition]依据filter_condition(条件)对Df(数据)进行过滤。
绘图功能
Plot(kind,x,y,title,figsize)
Kind(绘制什么形式的图),x(x轴内容),y(y轴内容),title(图标题),figsize(图大小)
保存图片:plt.savefig()
("The fool doth think he is wise, but the wise man knows himself to be a fool." --威廉·莎士比亚
)
来源:https://blog.csdn.net/cjx14060307101/article/details/89023715


猜你喜欢
- 本文实例讲述了Python基于matplotlib实现绘制三维图形功能。分享给大家供大家参考,具体如下:代码一:# coding=utf-8
- vscode安装python库1.已经在vscode中装了python并配置好python运行环境。检查是否正确配置好运行环境,按Windo
- 定义: 何为触发器?在SQL Server里面也就是对某一个表的一定的操作,触发某种条件,从而执行的一段程序。触发器是一个特殊的存储过程。
- 1、pip下载安装1.1 pip下载# wget "https://pypi.python.org/packages/source
- 上文:成为一个顶级设计师的第二准则英文原文成为一个顶级设计师的第三准则:对比,对比,对比在设计里面,好的对比和你对颜色选择是密切相关的。对比
- 在图像分割领域,一个重要任务便是分割出感兴趣(ROI)区域。如果是简易的矩形ROI区域其实是非常容易分割的,opencv的官方python教
- 在urls.py文件中按照如下步骤写,即可正确使用DRF的内置路由.from .views import BookModel # 1. 导入
- 背景我们使用MySQL存储了FriendFeed的所有数据。数据库随着用户基数的增长而增长了很多。现在已经存储了超过2.5亿条记
- 用Python实现常规的静态网页抓取时,往往是用urllib2来获取整个HTML页面,然后从HTML文件中逐字查找对应的关键字。如下所示:i
- #-*- coding:utf-8 -*- from win32com.client import Dispatch import time
- 这篇论坛文章(赛迪网技术社区)详细讲解了SQL Server海量数据导入的最快方法,更多内容请参考下文:最近做某项目的数据库分析,要实现对海
- 导言:接上期,我们在极坐标下用python画了圆,心形线,玫瑰线,阿基米德螺线和双纽线5大常规曲线外,后来发现还漏了好一些漂亮且有意思的的曲
- 基本介绍反射可以在运行时动态获取变量的各种信息,比如变量的类型,类别如果是结构体变量,还可以获取到结构体本身的信息通过反射,可以修改变量的值
- 1、将css与javascript全部用下边的方法分离到外部文件中去。<link rel="stylesheet"
- 本文实例讲述了python基于xml parse实现解析cdatasection数据的方法,分享给大家供大家参考。具体实现方法如下:from
- 工具版本python版本:3.8 django版本:2.0.0 mysql版本: 5.5.53 pip3创建工程djangostartDja
- ----------记录一下这两天做的一个小demo功能是要实现一个从前端传给后端一张图片,在后端完成目标检测后,传给前端,前端接收后并展示
- 下面的例子将结合项目实际运用来使用Jquery.TreeView,当然在使用控件树需要现在相应的js文件 下面就把我生成的TreeView展
- 前言:本系列文章主要参考了《Ultimate ASP.NET Core 3 Web API》一书,对原文进行了翻译,同时适当删减、修改了一部
- 在继承的使用上,我们最早接触的是父类和子类的继承。不过Flask框架中的继承要简单一些,只要有一个原文件,便可以对其进行继承和修改的操作了。