Python数据分析之缺失值检测与处理详解
作者:Dream丶Killer 发布时间:2021-10-04 01:09:08
检测缺失值
我们先创建一个带有缺失值的数据框(DataFrame
)。
import pandas as pd
df = pd.DataFrame(
{'A': [None, 2, None, 4],
'B': [10, None, None, 40],
'C': [100, 200, None, 400],
'D': [None, 2000, 3000, None]})
df
数值类缺失值在 Pandas 中被显示为 NaN (Not A Number)。下面看看如何判断哪些列或者哪些行有缺失值。
1.info()
info() 返回的结果中,我们只需要观察每一列对应的 Non-Null Count 的数量是否等于 RangeIndex(索引范围) 即可。
2.isnull()
isnull() 返回一个与原 DataFrame 大小(列数,行数)相同的数据框,行列对应的数据代表着该位置是否为缺失值。
df.isnull()
使用 sum() 来检测每列中的缺失值的数量。
df.isnull().sum()
通过 .T 将 DataFrame 转置,获取检测每行中缺失值的数量。
df.isnull().T.sum()
缺失值处理
删除缺失值
如果出现缺失值的行/列重要性不大的话,可以直接使用 dropna()
删除带有缺失值的行/列。
df.dropna(axis=0,
how='any',
thresh=None,
subset=None,
inplace=False)
参数含义
axis:控制行列的参数,0 行,1 列。
how:any,如果有 NaN,删除该行或列;all,如果所有值都是 NaN,删除该行或列。
thresh:指定 NaN 的数量,当 NaN 数量达到才删除。
subset:要考虑的数据范围,如:删除缺失行,就用subset指定参考的列,默认是所有列。
inplace:是否修改原数据,True直接修改原数据,返回 None,False则返回处理后的数据框。
指定 axis = 1,如果列中有缺失值,则删除该列。
df.dropna(axis=1, how='any')
由于每列都有缺失值,所以只剩索引。
指定 axis = 0(默认),如果行中有缺失值,则删除该行。
df.dropna(axis=0, how='any')
以 ABC 列为参照,删除这三列都是缺失值的行。
df.dropna(axis=0, subset=['A', 'B', 'C'], how='all')
保留至少有3个非NaN值的行。
df.dropna(axis=0, thresh=3)
填补缺失值
另一种常见的缺失值处理方式就是使用 fillna()
填补缺失值。
df.fillna(value=None,
method=None,
axis=0,
inplace=False,
limit=None)
1. 直接指定填充值
df.fillna(666)
2.用缺失值前/后的值填充
按前一个值填充
当method 值为 ffill 或 pad时,按前一个值进行填充。
当 axis = 0,用缺失值同一列的上一个值填充,如果缺失值在第一行则不填充。
当 axis = 1,用缺失值同一行的上一个值填充,如果缺失值在第一列则不填充。
df.fillna(axis=0, method='pad')
按后一个值填充
当method 值为 backfill 或 bfill时,按后一个值进行填充。
当 axis = 0,用缺失值同一列的下一个值填充,如果缺失值在最后一行则不填充。
当 axis = 1,用缺失值同一行的下一个值填充,如果缺失值在最后一列则不填充。
df.fillna(axis=0, method='bfill')
指定相应的方法来填充
df.fillna(df.mean())
limit限制填充次数
在ABCD列上,每列只填充第一个空值。
df.fillna(value=666, axis=1, limit=1)
来源:https://blog.csdn.net/qq_43965708/article/details/121297449
猜你喜欢
- 近期公司准备开发一个计费项目,数据库当然还是选用我最信赖的Oracle了。由于一部分基础数据在一台Win2000 Server的S
- 本文向大家分享23种JavaScript提高执行效率的小技巧、最佳实践等非常实用的内容。当然JavaScript的实用技巧不止这些,还有很多
- 前言作为Web开发人员,在 Web浏览器中存储数据以改善用户体验和提升Web应用程序性能是非常常见的。在大多数情况下,可供我们使用就是Loc
- 谁在用这些导航google是个大公司,全世界都有google的脚印,韩国的google动画效果非常不错,蓝色理想论坛里已经有人挖过来了,可惜
- 知识补充表单简介(来自Mr._Dang)action:提交的地址method:提交的方式 get: 参数是在url中的,不安全,传输量比较少
- 随机显示图片代码:<div class="sidebarcen"><script language=&
- Microsoft建立了一种既灵活又强大的安全管理机制,它能够对用户访问SQL Server服务器系统和数据库的安全进行全面地管理。按照本文
- 用户登录验证脚本,Chkpwd.asp<% '=======用户登录验证脚本======= '如果尚未定义Passed
- golang中允许对值为 nil 的 slice 添加元素package main func main() { var s []int s
- 说绘画语言,西方的油画是人类视觉语言里怎么也不能忽略的浓烈一笔。14~15世纪,蛋彩画——油画前身的发明,绘画可以使用均匀过渡的色彩渐变,并
- 这周心血来潮,翻看了现在比较流行的几个JS脚本框架的底层代码,虽然是走马观花,但也受益良多,感叹先人们的伟大……感叹是为了缓解严肃的气氛并引
- 本来在网上有不少关于这方面的文章,可是我找了好久也没看到把(可能我的搜索水平有线把)不过倒是聊天室的很多。如何统计会员再线状态,希望对刚开始
- 使用.net2005自带的SQL-Express连接不上。解决方法:1.网络防火墙阻止数据库连接;2.默认SQL-Express没有启动Sa
- 这句代码在IE9之前曾被称为世界上最短的IE判定代码。代码虽短但确包含了不少javascript基础知识在里面。var ie&nb
- 我们先看一个简单的例子:<input type="text" onblur="alert(this.va
- 今天在使用MySQL时却不知如何处理,插入记录后不知怎样获得刚刚插入的id,查过文档后发现了select last_insert_id(),
- 内容摘要:“ASP”(Active Server Pages)作为一种典型的服务器端网页设计技术,被广泛地应用在网上银行
- 打开php.ini,首先找到file_uploads = on ;是否允许通过HTTP上传文件的开关。默认为ON即是开upload_tmp_
- Microsoft SQL Server 7.0安全问题Microsoft Corporation【「Microsoft SQL Serve
- 分页是每一个程序需要去理解的东西,学习过的几门语言中我发现分页原理都是一样的,下面为php初学者分析一下php分页实现与最后面补充了一个超级