python缺失值填充方法示例代码
作者:开始学习的同学 发布时间:2023-06-28 12:23:24
1.找到缺失值
导入数据集
df=pd.read_csv("nba.csv")
df.head(10)
替换异常值(数据集中异常值为“-”)
把数据集中的异常值用“NaN”替换
# 将空值形式的缺失值转换成可识别的类型
data = data.replace('-', np.NaN)
2.计算缺失值的数量
用# isnull() 函数,确认各列是否有缺失值1.
null_all = df.isnull().sum()
print(null_all)
.sum();表示可以显示各个列的缺失值数量。
null_all = df.isnull.any(axis=1)#表示那些行具有缺失值,
.any()表示只要按行或列计算,有缺失值就算入
.all()表示所在行或列全为缺失值才计入
.sum()表示计算列缺失值时,一列有多个缺失值,同理,计算行缺失,计算有多少个行。
3.处理缺失值
3.1:df.dropna():直接删除行列
df表示数据集的名称
dropna(axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
括号内上述参数都是函数默认。
axis=0:表示对行进行删除操作,axis=1:对列删除进行操作
how=‘any’:表示维度 存在“缺失值”就删除相应行/列操作;how=‘all’:进行相关行或列删除操作时,只有所有维度缺失才删除。
thresh=None:等于几表示有几个缺失值存在才会删除所在的行或列。
inplace=False:表示对原来的数据集不进行操作,True时表示对原来的数据集也进行操作。
3.2:df.fillna()填充缺失值
fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)
axis : {0 or ‘index’, 1 or ‘columns’}
method : {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}
pad’, ‘ffill:将前面的值填充于后面位置。
backfill’, 'bfill:表示将后面的值填充于前面位置。
data.fillna(data.mean())#平均值填充
data.fillna(data.median())#中位数填充
3.3:KNN填充
from sklearn.impute import KNNImputer
imputer = KNNImputer(n_neighbors=4)#邻居样本求平均数
df1=imputer.fit_transform(df)
4.查看数据集的末尾
df.tail(10)
查看末尾10行
来源:https://blog.csdn.net/ZGP1234/article/details/125234702


猜你喜欢
- 本文实例讲述了python使用webbrowser浏览指定url的方法。分享给大家供大家参考。具体如下:这段代码提示用户输入关键词,通过we
- 本文实例讲述了python使用pymongo与MongoDB基本交互操作。分享给大家供大家参考,具体如下:本文内容:pymongo的使用:安
- 一、内置函数下面简单介绍几个:1.abs() 求绝对值2.all() 如果 iterable 的所有元素都为真(或者如果可迭代为空),则返回
- 如何下载最新版本的MySQL?我先去MySQL首页下载最新版本的MySQL-链接:https://www.mysql.com/downloa
- 本文实例讲述了jQuery选择器用法。分享给大家供大家参考,具体如下:jQuery 使用两种方式来选择 html 的 element,第一种
- 尽管甲骨文收购Sun交易尚在等待最终结果,业界对开源数据库MySQL的未来命运也十分担忧,但Sun的开发者依然在继续努力研发该开源数据库。他
- 目标减少资源加载可以明显的优化页面加载的速度,所以可以减少页面载入时立即下载的图片的数量,以提高页面加载速度,其他的图片在需要的时候再进行加
- 本文实例为大家分享了python sort、sort_index的具体代码,供大家参考,具体内容如下对Series进行排序#生成序列objo
- 将一个CSV格式的文件分割成两个CSV文件本项目可以按照比例将一个csv文件分割成两个csv文件,效果是:在C:\algo_file文件夹下
- 问题:如何保护自己的ASP源代码不泄露? 答:下载微软的Windows Script Encoder,对ASP的脚本和客户端javascri
- Create trigger tri_wk_CSVHead_History on wk_CSVHead_History --声明一个tri_
- Django中内置了邮件发送功能,被定义在django.core.mail模块中。发送邮件需要使用SMTP服务器,常用的免费服务器有:163
- stark组件是仿照django的admin模块开发的一套组件,它的作用是在网页上对注册的数据表进行增删改查操作一、配置1、创建
- 一、简介Imageio是一个Python库,提供了一个简单的界面来读取和写入各种图像数据,包括动画图像,视频,体积数据和科学格式。它是跨平台
- 前言大家好,今天很开心有机会跟大家分享最近几年阿里在低代码领域的思考和实战。我是力皓,目前已经在前端和后端岗位工作了十多年了,近 3 年专注
- example: for item in warehouse_list: warehouse_id =
- 目录循环语句单分支如何使用双分支结构多分支的使用While 循环拳击游戏循环:总结循环语句多分支选择流程 If-else语句单分支如何使用#
- use mysql; u
- 1、纯粹的截取字符串function cutstr(thestr1,strlen) dim l,t,c&nbs
- Python基本内置数据类型有哪些一些基本数据类型,比如:整型(数字)、字符串、元组、列表、字典和布尔类型。随着学习进度的加深,大家还会接触