Python Pandas对缺失值的处理方法
作者:乒乓球鸡蛋 发布时间:2021-03-18 19:38:55
标签:pandas,缺失值
Pandas使用这些函数处理缺失值:
isnull和notnull:检测是否是空值,可用于df和series
dropna:丢弃、删除缺失值
axis : 删除行还是列,{0 or ‘index', 1 or ‘columns'}, default 0
how : 如果等于any则任何值为空都删除,如果等于all则所有值都为空才删除
inplace : 如果为True则修改当前df,否则返回新的df
fillna:填充空值
value:用于填充的值,可以是单个值,或者字典(key是列名,value是值)
method : 等于ffill使用前一个不为空的值填充forword fill;等于bfill使用后一个不为空的值填充backword fill
axis : 按行还是列填充,{0 or ‘index', 1 or ‘columns'}
inplace : 如果为True则修改当前df,否则返回新的df
import pandas as pd
实例:特殊Excel的读取、清洗、处理
步骤1:读取excel的时候,忽略前几个空行
studf = pd.read_excel("./datas/student_excel/student_excel.xlsx", skiprows=2)
studf
Unnamed: 0 | 姓名 | 科目 | 分数 | |
---|---|---|---|---|
0 | NaN | 小明 | 语文 | 85.0 |
1 | NaN | NaN | 数学 | 80.0 |
2 | NaN | NaN | 英语 | 90.0 |
3 | NaN | NaN | NaN | NaN |
4 | NaN | 小王 | 语文 | 85.0 |
5 | NaN | NaN | 数学 | NaN |
6 | NaN | NaN | 英语 | 90.0 |
7 | NaN | NaN | NaN | NaN |
8 | NaN | 小刚 | 语文 | 85.0 |
9 | NaN | NaN | 数学 | 80.0 |
10 | NaN | NaN | 英语 | 90.0 |
步骤2:检测空值
studf.isnull()
Unnamed: 0 | 姓名 | 科目 | 分数 | |
---|---|---|---|---|
0 | True | False | False | False |
1 | True | True | False | False |
2 | True | True | False | False |
3 | True | True | True | True |
4 | True | False | False | False |
5 | True | True | False | True |
6 | True | True | False | False |
7 | True | True | True | True |
8 | True | False | False | False |
9 | True | True | False | False |
10 | True | True | False | False |
studf["分数"].isnull()
0 False
1 False
2 False
3 True
4 False
5 True
6 False
7 True
8 False
9 False
10 False
Name: 分数, dtype: bool
studf["分数"].notnull()
0 True
1 True
2 True
3 False
4 True
5 False
6 True
7 False
8 True
9 True
10 True
Name: 分数, dtype: bool
# 筛选没有空分数的所有行
studf.loc[studf["分数"].notnull(), :]
Unnamed: 0 | 姓名 | 科目 | 分数 | |
---|---|---|---|---|
0 | NaN | 小明 | 语文 | 85.0 |
1 | NaN | NaN | 数学 | 80.0 |
2 | NaN | NaN | 英语 | 90.0 |
4 | NaN | 小王 | 语文 | 85.0 |
6 | NaN | NaN | 英语 | 90.0 |
8 | NaN | 小刚 | 语文 | 85.0 |
9 | NaN | NaN | 数学 | 80.0 |
10 | NaN | NaN | 英语 | 90.0 |
步骤3:删除掉全是空值的列
studf.dropna(axis="columns", how='all', inplace=True)
studf
姓名 | 科目 | 分数 | |
---|---|---|---|
0 | 小明 | 语文 | 85.0 |
1 | NaN | 数学 | 80.0 |
2 | NaN | 英语 | 90.0 |
3 | NaN | NaN | NaN |
4 | 小王 | 语文 | 85.0 |
5 | NaN | 数学 | NaN |
6 | NaN | 英语 | 90.0 |
7 | NaN | NaN | NaN |
8 | 小刚 | 语文 | 85.0 |
9 | NaN | 数学 | 80.0 |
10 | NaN | 英语 | 90.0 |
步骤4:删除掉全是空值的行
studf.dropna(axis="index", how='all', inplace=True)
studf
姓名 | 科目 | 分数 | |
---|---|---|---|
0 | 小明 | 语文 | 85.0 |
1 | NaN | 数学 | 80.0 |
2 | NaN | 英语 | 90.0 |
4 | 小王 | 语文 | 85.0 |
5 | NaN | 数学 | NaN |
6 | NaN | 英语 | 90.0 |
8 | 小刚 | 语文 | 85.0 |
9 | NaN | 数学 | 80.0 |
10 | NaN | 英语 | 90.0 |
步骤5:将分数列为空的填充为0分
studf.fillna({"分数":0})
姓名 | 科目 | 分数 | |
---|---|---|---|
0 | 小明 | 语文 | 85.0 |
1 | NaN | 数学 | 80.0 |
2 | NaN | 英语 | 90.0 |
4 | 小王 | 语文 | 85.0 |
5 | NaN | 数学 | 0.0 |
6 | NaN | 英语 | 90.0 |
8 | 小刚 | 语文 | 85.0 |
9 | NaN | 数学 | 80.0 |
10 | NaN | 英语 | 90.0 |
# 等同于
studf.loc[:, '分数'] = studf['分数'].fillna(0)
studf
姓名 | 科目 | 分数 | |
---|---|---|---|
0 | 小明 | 语文 | 85.0 |
1 | NaN | 数学 | 80.0 |
2 | NaN | 英语 | 90.0 |
4 | 小王 | 语文 | 85.0 |
5 | NaN | 数学 | 0.0 |
6 | NaN | 英语 | 90.0 |
8 | 小刚 | 语文 | 85.0 |
9 | NaN | 数学 | 80.0 |
10 | NaN | 英语 | 90.0 |
步骤6:将姓名的缺失值填充
使用前面的有效值填充,用ffill:forward fill
studf.loc[:, '姓名'] = studf['姓名'].fillna(method="ffill")
studf
姓名 | 科目 | 分数 | |
---|---|---|---|
0 | 小明 | 语文 | 85.0 |
1 | 小明 | 数学 | 80.0 |
2 | 小明 | 英语 | 90.0 |
4 | 小王 | 语文 | 85.0 |
5 | 小王 | 数学 | 0.0 |
6 | 小王 | 英语 | 90.0 |
8 | 小刚 | 语文 | 85.0 |
9 | 小刚 | 数学 | 80.0 |
10 | 小刚 | 英语 | 90.0 |
步骤7:将清洗好的excel保存
studf.to_excel("./datas/student_excel/student_excel_clean.xlsx", index=False)
总结
来源:https://www.cnblogs.com/crazyant/p/11595566.html


猜你喜欢
- 以下代码可自动登录12306 - 包括输入用户名密码以及自动识别验证码并点击验证码登陆。该源码需要稍作修改:把 username
- $str = '中华人民共和国123456789abcdefg'; echo preg_match("/^[\u4
- String slctpsql="select id ,"+uid+","+ddd+",&
- 本文实例讲述了python简单读取大文件的方法。分享给大家供大家参考,具体如下:Python读取大文件(GB级别)采用的办法很简单:with
- 1、将一个字典输入:该字典必须满足:value是一个list类型的元素,且每一个key对应的value长度都相同:(以该字典的key为col
- 前言最近在学习python-igraph,发现其实学习一种全新的语言看官方的文档是真的很有帮助,这次我的大部分python代码的完成都是靠着
- 有些接口参数是一个文件格式,比如fiddler 抓包参数如下显示这个接口的 form-data fiddler 显示的和不带文件参数的接口有
- Timedelta转换为Int或Float方式Pandas处理import pandas as pddataSet['t']
- 高级加密标准(AES,Advanced Encryption Standard)为最常见的对称加密算法(微信小程序加密传输就是用这个加密算法
- 描述Python strip() 方法用于移除字符串头尾指定的字符(默认为空格)。语法strip()方法语法:str.strip([char
- python在安装的时候,就自带了很多模块,我们把这些模块称之为标准库,其中,有一个是使用频率比较高的,就是 os 。这个库中方法和属性众多
- 前言平静之下,蓦然回首,base64 却在灯火阑珊处。今天翻开旧项目发现挺多图片相关的插件都是用 base64 来显示图片的。谈到 base
- 利用seek监控文件内容,并打印出变化内容:#/usr/bin/env python#-*- coding=utf-8 -*-pos = 0
- <html> <head> <script type="text/javascript"&
- 实现步骤:图像灰度化边缘检测根据Canny检测得出来的Mat寻找轮廓算出最大轮廓周长or面积根据获取到的最大轮廓下标进行轮廓绘制画出最大矩形
- 写在前面嗯,学习GO,所以有了这篇文章博文内容为《GO语言实战》读书笔记之一主要涉及映射相关知识你要爱就要像一个痴情的恋人那样去爱,像一个忘
- 本文实例讲述了Python实现繁體转为简体的方法。分享给大家供大家参考,具体如下:这里需要用到两个文件,可以点击此处本站下载源文件:zh_w
- "合成大西瓜"这个游戏在年前很火热,还上过微博热搜,最近便玩了一阵还挺有意思的,所以研究了一下小球碰撞原理,自己亲自手写
- 本文实例讲述了Python socket连接中的粘包、精确传输问题。分享给大家供大家参考,具体如下:粘包:发生原因:当调用send的时候,数
- 本文实例讲述了Python3运算符常见用法。分享给大家供大家参考,具体如下:4.1算数运算符(以下假设变量a为10,变量b为21)实例操作: