Pandas处理DataFrame稀疏数据及维度不匹配数据分析详解
作者:fanstuck 发布时间:2023-08-20 02:44:38
前言
众所周知我们获取的第一手数据往往都是比较杂乱无章的,这些文件保存一般都是csv文件或者是excel文件,读取转换成DataFrame还有可能因为缺少列索引或者是各类数据维度不相等而报错。读取成功为DataFrame仍然有很多问题存在,比如列索引缺失,众多NaN数据以及合并计算问题等,这篇文章将具体解决此场景下的内容。
一、索引缺失
读取缺失量较大的数据时,索引并不是能完全覆盖到的。存在着列索引缺失的问题,这是一个比较头疼的问题,使得我们后面的数据特征无法使用:
这是针对机器学习的数据集特征,面对这种情况我们可以通过重新设置索引的方式,倘若特征之间是有规律的话,例如上表5列以后的数据每列的列索引都是features的话那么我们可以通过reindex的方法给它补全索引:
def deal_defect(df,n):
df_defect=df.iloc[:,n:]
m=4
list_columns=[]
for i in range(df_defect.shape[1]):
list_columns.append('features%d'%m)
m=m+1
df_defect.columns=list_columns
df_all=pd.concat([df.iloc[:,:n],df_defect],axis=1)
return df_all
deal_defect(df,5)
二、负值取正
若是要对整个DataFrame的值都取负数,并不需要挨个列都转再使用abs函数,读取的DataFrame一般都是object类型不能直接使用abs,需要使用astype将dataframe类型转换:
当数据中带有NaN时是不能直接转int的:
df_fill=df.astype('int')
IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer
但是我们转换为float的时候原始数据集又出现了后面带.0的情况:
这里我们要使用到fillna函数,先转为float取绝对值之后再填充为空值之后替换为-1,这样一来-1的位置就是缺失值的位置,以便于我们识别:
def fill_conver(df):
df_fill=df.astype('float')
df_fill=abs(df_fill)
df_fill=df_fill.fillna('')
df_fill=df_fill.replace('',-1)
df_fill=df_fill.astype(int)
return df_fill
fill_conver(df)
三、提取数值
既然有很多空值我们可以采取侧缺将低于一定比例的数据去除,这部分在上篇缺失值处理文章已经谈到这里不再说明。我们最常遇到的情况就是需要处理空值只提去出相应标签下的数值,这里涉及到列索引的选择和合并操作。例如我们只需要特征列偶数列的数值:
def get_features(df):
list_all_link=[]
df=df.iloc[:,2:]
for i in range(df.shape[0]):
#flag为控制外层循环开关
flag=1
for j in range(df.shape[1]):
if(flag==0):
break
if(j%2==0):
if(df.iloc[i:i+1,j].item()==-1):
flag=0
else:
list_all_link.append(list(df.iloc[i:i+1,j]))
return list_all_link
get_features(df)
四、提取唯一值
如果我们需要只需要取到的数列中的唯一值,需要对数据集进行处理,可以使用ravel()和unique()函数。此时我们还需要注意删掉-1:
def unique_df(df):
df_features=df.iloc[:,2:]
unique_series=pd.Series(pd.Series(df_features.iloc[:,[i%2==0 for i in range(len(df_features.columns))]].values.ravel()).unique())
list_series=list(unique_series.values)
return list_series
unique_list=unique_df(df)
unique_list.remove(-1)
unique_list
来源:https://juejin.cn/post/7200288095559581752


猜你喜欢
- exec sp_attach_db exun,'d:\exun2.mdf' 一句话就可以了。 网上看了那些比较繁琐的,都是s
- 本文实例讲述了Python实现的桶排序算法。分享给大家供大家参考,具体如下:桶排序也叫计数排序,简单来说,就是将数据集里面所有元素按顺序列举
- 1. 语句块:{ }之间的部分即为BLOCK语句块。2. 条件语句:if ( expression ) BLOCK;if ( e
- 前言本文主要给大家介绍了关于scrapy爬到的数据保存到mysql(防止重复)的相关内容,分享出来供大家参考学习,下面话不多说了,来一起看看
- 守护进程模式使用python开发后台服务程序的时候,每次修改代码之后都需要重启服务才能生效比较麻烦。看了一下Python开源的Web框架(D
- 索引与切片在Tensorflow中使用的频率极其高,可以用来提取部分数据。1.索引在 TensorFlow 中,支持基本的[𝑖][𝑗]…标准
- MySQLWorkbench是 MySQL AB 最近释放的可视数据库设计工具。这个工具是设计 MySQL数据库的专用工具。下载地址:htt
- 本文实例讲述了python计算时间差的方法。分享给大家供大家参考。具体分析如下:1、问题:给定你两个日期,如何计算这两个日期之间间隔几天,几
- 本文介绍机器学习中的Logistic回归算法,我们使用这个算法来给数据进行分类。Logistic回归算法同样是需要通过样本空间学习的监督学习
- 正在看的ORACLE教程是:ORACLE8的分区管理。摘要:本篇文章介绍了ORACLE数据库的新特性—分区管理,并用例子说明使用方法。 关键
- 背景在小站点上,直接用git来部署php代码相当方便,你的远程站点以及本地版本库都有一个版本控制,追踪问题或者回滚是很轻松的事情。因为在小公
- 请问如何在Oracle Setver端检测ODBC是否连接好了?首先,在SQLPLUS安装时勾选oracle open client ada
- PyTorch上的常用数据类型如下Data typedtypeCPU tensorGPU tensorSize/bytes32-bit fl
- 我在初学时查阅过大量相关资料,发现其中提供的很多方法实际操作起来并不是那么回事。对于简单的应用,这些资料也许是有帮助的,但仅限于此,因为它们
- 一、yaml文件介绍yaml是一个专门用来写配置文件的语言。1. yaml文件规则区分大小写;使用缩进表示层级关系;使用空格键缩进,而非Ta
- -- SQL Server 2000 SELECT a.name AS 字段名, CASE WHEN EXISTS (SELECT 1 FR
- 系统自带模块(库)```cppimport retarget = 'abc1234xyz're.search('(\
- canny边缘检测原理canny边缘检测共有5部分组成,下边我会分别来介绍。1 高斯模糊(略)2 计算梯度幅值和方向。可选用的模板:sobl
- 前言:因为研究工作的需要,要更改激活函数以适应自己的网络模型,但是单纯的函数替换会训练导致不能收敛。这里还有些不清楚为什么,希望有人可以给出
- 这篇文章主要介绍了python基于celery实现异步任务周期任务定时任务,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参