Python数据分析之缺失值检测与处理详解
作者:Dream丶Killer 发布时间:2021-10-04 01:09:08
检测缺失值
我们先创建一个带有缺失值的数据框(DataFrame
)。
import pandas as pd
df = pd.DataFrame(
{'A': [None, 2, None, 4],
'B': [10, None, None, 40],
'C': [100, 200, None, 400],
'D': [None, 2000, 3000, None]})
df
数值类缺失值在 Pandas 中被显示为 NaN (Not A Number)。下面看看如何判断哪些列或者哪些行有缺失值。
1.info()
info() 返回的结果中,我们只需要观察每一列对应的 Non-Null Count 的数量是否等于 RangeIndex(索引范围) 即可。
2.isnull()
isnull() 返回一个与原 DataFrame 大小(列数,行数)相同的数据框,行列对应的数据代表着该位置是否为缺失值。
df.isnull()
使用 sum() 来检测每列中的缺失值的数量。
df.isnull().sum()
通过 .T 将 DataFrame 转置,获取检测每行中缺失值的数量。
df.isnull().T.sum()
缺失值处理
删除缺失值
如果出现缺失值的行/列重要性不大的话,可以直接使用 dropna()
删除带有缺失值的行/列。
df.dropna(axis=0,
how='any',
thresh=None,
subset=None,
inplace=False)
参数含义
axis:控制行列的参数,0 行,1 列。
how:any,如果有 NaN,删除该行或列;all,如果所有值都是 NaN,删除该行或列。
thresh:指定 NaN 的数量,当 NaN 数量达到才删除。
subset:要考虑的数据范围,如:删除缺失行,就用subset指定参考的列,默认是所有列。
inplace:是否修改原数据,True直接修改原数据,返回 None,False则返回处理后的数据框。
指定 axis = 1,如果列中有缺失值,则删除该列。
df.dropna(axis=1, how='any')
由于每列都有缺失值,所以只剩索引。
指定 axis = 0(默认),如果行中有缺失值,则删除该行。
df.dropna(axis=0, how='any')
以 ABC 列为参照,删除这三列都是缺失值的行。
df.dropna(axis=0, subset=['A', 'B', 'C'], how='all')
保留至少有3个非NaN值的行。
df.dropna(axis=0, thresh=3)
填补缺失值
另一种常见的缺失值处理方式就是使用 fillna()
填补缺失值。
df.fillna(value=None,
method=None,
axis=0,
inplace=False,
limit=None)
1. 直接指定填充值
df.fillna(666)
2.用缺失值前/后的值填充
按前一个值填充
当method 值为 ffill 或 pad时,按前一个值进行填充。
当 axis = 0,用缺失值同一列的上一个值填充,如果缺失值在第一行则不填充。
当 axis = 1,用缺失值同一行的上一个值填充,如果缺失值在第一列则不填充。
df.fillna(axis=0, method='pad')
按后一个值填充
当method 值为 backfill 或 bfill时,按后一个值进行填充。
当 axis = 0,用缺失值同一列的下一个值填充,如果缺失值在最后一行则不填充。
当 axis = 1,用缺失值同一行的下一个值填充,如果缺失值在最后一列则不填充。
df.fillna(axis=0, method='bfill')
指定相应的方法来填充
df.fillna(df.mean())
limit限制填充次数
在ABCD列上,每列只填充第一个空值。
df.fillna(value=666, axis=1, limit=1)
来源:https://blog.csdn.net/qq_43965708/article/details/121297449


猜你喜欢
- 分别为:1.倒计定时器:timename=setTimeout("function();",delaytime);2.循
- VueConf ,尤大说, Vue 支持 Ts 了,网上关于 Vue + Ts 的资料有点少, 楼主踩了一个星期坑,终于摸明白了 修饰器 的
- 绪论java默认精度是毫秒级别的,生成的时间戳是13位,而python默认是10位的,精度是秒。那么python是如何生成13位时间戳,以及
- 之前因为项目的原因需要使用Oracle数据库,由于时间有限没办法从基础开始学习,而且oracle操作的命令界面又太不友好,于是就找到了PL/
- 前端JS中使用XMLHttpRequest 2上传图片到服务器,PC端和大部分手机上都正常,但在少部分安卓手机上上传失败,服务器上查看图片,
- 目录通过python的tkinter实现简单的注册登录代码截图登录页面注册页面个人主页修改个人信息失败修改个人信息成功重新登录twb总结通过
- 1.什么是接口接口就是一种规范与标准,在生活中经常见接口,例如:笔记本电脑的USB接口,可以将任何厂商生产的鼠标与键盘,与电脑进行链接。为什
- 背景今天朋友给我发了一个某游戏的兑换码,压缩文件发过来的。结果被加密了。wc?还说叫爸爸就给我密码?男人是这么容易像恶势力低头的?直接给你爆
- 本文实例讲述了python求crc32值的方法。分享给大家供大家参考。具体实现方法如下:要想求CRC值,前面要import binascii
- 本文实例为大家分享了python实现学生成绩管理系统的具体代码,供大家参考,具体内容如下需求:代码:import osfilename =
- 开始刷leetcode算法题 今天做的是“买卖股票的最佳时机”题目要求 给定一个数组,它的第 i 个元素是一支给定股票第 i 天的价格。设计
- 1.在查询分析器理启动或停止SQL Agent服务 启动 use master go xp_cmdshell
- 2018年1月3日,王思聪被迫动用自己的微博,为一个诞生不到10天的App打了广告,“每天我都发奖金,今晚9点就发10万”。对他而言,这天的
- 文字的多行处理在dom元素中很好办。但是canvas中没有提供方法,只有通过截取指定字符串来达到目的。那么下面就介绍我自己处理的办法:wxm
- 数据库查询哪个对像里面包含什么字段语句写法:select *from sysobjects o, syscomments swhere o.
- 本文实例讲述了CodeIgniter自定义控制器MY_Controller用法。分享给大家供大家参考,具体如下:Codeigniter所有的
- 一句话概括:数据劫持(Object.defineProperty)+发布订阅模式双向数据绑定有三大核心模块(dep 、observer、wa
- 我们经常使用nodeType==1判断元素是否是一个HMTLElement元素。页面上的元素都是节点(Node),有元素节点(Element
- 在开发中有个需求是一个选择城市的列表,看了看做成 * 联动好像不是特别方便 还是做成一整页可以按导航选取的就可以了话不多说开始上码我用的是va
- 我们经常见到很多网站留言系统的显示访客的IP地址都是隐藏了一部分,以达到隐蔽访客真实地理位置的功能。如:111.222.333.*,当然在系