python 文件读写和数据清洗
作者:数据打工人 发布时间:2021-02-10 22:58:43
标签:python,文件,读写,数据,清洗
一、文件操作
pandas内置了10多种数据源读取函数,常见的就是CSV和EXCEL
使用read_csv方法读取,结果为dataframe格式
在读取csv文件时,文件名称尽量是英文
读取csv时,注意编码,常用编码为utf-8、gbk 、gbk2312和gb18030等
使用to_csv方法快速保存
1.1 csv文件读写
#读取文件,以下两种方式:
#使用pandas读入需要处理的表格及sheet页
import pandas as pd
df = pd.read_csv("test.csv",sheet_name='sheet1') #默认是utf-8编码
#或者使用with关键字
with open("test.csv",encoding="utf-8")as df:
#按行遍历
for row in df:
#修正
row = row.replace('阴性','0').replace('00.','0.')
...
print(row)
#将处理后的结果写入新表
#建议用utf-8编码或者中文gbk编码,默认是utf-8编码,index=False表示不写出行索引
df.to_csv('df_new.csv',encoding='utf-8',index=False)
1.2 excel文件读写
#读入需要处理的表格及sheet页
df = pd.read_excel('测试.xlsx',sheet_name='test')
df = pd.read_excel(r'测试.xlsx') #默认读入第一个sheet
#将处理后的结果写入新表
df1.to_excel('处理后的数据.xlsx',index=False)
二、数据清洗
2.1 删除空值
# 删除空值行
# 使用索引
df.dropna(axis=0,how='all')#删除全部值为空的行
df_1 = df[df['价格'].notna()] #删除某一列值为空的行
df = df.dropna(axis=0,how='all',subset=['1','2','3','4','5'])# 这5列值均为空,删除整行
df = df.dropna(axis=0,how='any',subset=['1','2','3','4','5'])#这5列值任何出现一个空,即删除整行
2.2 删除不需要的列
# 使用del, 一次只能删除一列,不能一次删除多列
del df['sample_1'] #修改源文件,且一次只能删除一个
del df[['sample_1', 'sample_2']] #报错
#使用drop,有两种方法:
#使用列名
df = df.drop(['sample_1', 'sample_2'], axis=1) # axis=1 表示删除列
df.drop(['sample_1', 'sample_2'], axis=1, inplace=True) # inplace=True, 直接从内部删除
#使用索引
df.drop(df.columns[[0, 1, 2]], axis=1, inplace=True) # df.columns[ ] #直接使用索引查找列,删除前3列
2.3 删除不需要的行
#使用drop,有两种方法:
#使用行名
df = df.drop(['行名1', '行名2']) # 默认axis=0 表示删除行
df.drop(['行名1', '行名2'], inplace=True) # inplace=True, 直接从内部删除
#使用索引
df.drop(df.index[[1, 3, 5]]) # df.index[ ]直接使用索引查找行,删除1,3,5行
df = df[df.index % 2 == 0]#删除偶数行
2.4 重置索引
#在删除了行列数据后,造成索引混乱,可通过 reset_index重新生成连续索引
df.reset_index()#获得新的index,原来的index变成数据列,保留下来
df.reset_index(drop=True)#不想保留原来的index,使用参数 drop=True,默认 False
df.reset_index(drop=True,inplace=True)#修改源文件
#使用某一列作为索引
df.set_index('column_name').head()
2.5 统计缺失
#每列的缺失数量
df.isnull().sum()
#每列缺失占比
df3.isnull().sum()/df.shape[0]
#每行的缺失数量
df3.isnull().sum(axis=1)
#每行缺失占比
df3.isnull().sum(axis=1)/df.shape[1]
2.6 排序
#按每行缺失值进行降序排序
df3.isnull().sum(axis=1).sort_values(ascending=False)
#按每列缺失率进行降序排序
(df.isnull().sum()/df.isnull().count()).sort_values(ascending=False)
来源:https://blog.csdn.net/weixin_46942725/article/details/125865706


猜你喜欢
- 在 Go 中,有几种不同的方法来检查一个值是null还是empty。您应该使用的具体方法取决于您正在检查的值的类型。例如,如果你正在检查一个
- 如下所示: static void Main()&nbs
- 本文实例讲述了Python 异常的捕获、异常的传递与主动抛出异常操作。分享给大家供大家参考,具体如下:异常的捕获demo.py(异常的捕获)
- 00. 什么是 freecache?freecache 是一个用 go 语言实现的本地缓存系统(类似于 lru)。相关的 github 地址
- 所有编程语言都离不开循环。因此,默认情况下,只要有重复操作,我们就会开始执行循环。但是当我们处理大量迭代(数百万/十亿行)时,使用循环是一种
- 大家好,我们的数据库已经介绍完了,这里给大家总结一下。我们这段主要是学习了SQL的增删改查语句,其中查询是我们的重点。我们是以SQL Ser
- 前言本文提供将多个视频拼接为一个视频的Python工具代码,其中有一些限制条件,下面的代码说明会提到。环境依赖ffmpeg环境安装,可以参考
- 1.阈值化分割原理通过对图像的灰度直方图进行数学统计,选择一个或多个阈值将像素划分为若干类。一般情况下,当图像由灰度值相差较大的目标和背景组
- 1 简介孤立森林(isolation Forest)是一种高效的异常检测算法,它和随机森林类似,但每次选择划分属性和划分点(值)时都是随机的
- 在学习Python爬虫的时候,经常会遇见所要爬取的网站采取了反爬取技术,高强度、高效率地爬取网页信息常常会给网站服务器带来巨大压力,所以同一
- 一、Go语言通道基础概念1.channel产生背景 线程之间进行通信的时候,会因为资源的争夺而产生竟态问
- 从而达到方便快捷的目的,但是它在存储信息的时候往往会有一些敏感的东西,这些东西可能成为被攻击的目标,如银行的账号、信用卡事务或档案记录等。这
- python中import和from import的区别首先明确尽量不要为了图省事使用from xxx import *python中有两种
- 概述今天主要分享下mysql数据库应该如何正确的删除binlog日志,这里要注意不要强制使用rm命令进行清除。否则mysq-bin.inde
- 前面学习过search()可以从任意一个文本里搜索匹配的字符串,也就是说可以从任何位置里搜索到匹配的字符串。但是现实世界很复杂多变的,比如限
- 1、获取指定时间函数:date_format() 转换# 获取前一天时间的最大值SELECT date_format(CURRE
- 在使用python通过open()函数来打开文件的时候,传递绝对路径给open()的时候,发现路径参数的内容与想象中的有所出入:由于wind
- 昨天发现程序中数据分析的结果不对,重新进行分析后,原数据仍在,有值的字段被累计。心说,不对啊,是重新生成记录后才分析的啊。难道忘了DELET
- 今天淘到的,终于可以放心的使用IE7了,再也不用换回IE6做测试了!因为这个10M大小的软件已经包含了从IE3到IE6的版本,安装过程中可以
- 本文实例讲述了Python数据类型之Set集合。分享给大家供大家参考,具体如下:set集合1.概述set与dict类似,但set是一组key