如何将一个CSV格式的文件分割成两个CSV文件
作者:酷酷的橙007 发布时间:2022-02-17 01:24:29
标签:CSV格式,文件分割,CSV文件
将一个CSV格式的文件分割成两个CSV文件
本项目可以按照比例将一个csv文件分割成两个csv文件,效果是:在C:\algo_file文件夹下,将该文件夹下的data.csv文件分成train.csv和vali.csv
完整代码:
定义split_csv函数
import csv
import os
def split_csv(path, total_len, per):
# 如果train.csv和vali.csv存在就删除
if os.path.exists('C:\\algo_file\\train.csv'):
os.remove('C:\\algo_file\\train.csv')
if os.path.exists('C:\\algo_file\\vali.csv'):
os.remove('C:\\algo_file\\vali.csv')
with open(path, 'r', newline='') as file:
csvreader = csv.reader(file)
i = 0
for row in csvreader:
if i < round(total_len * per/100):
# train.csv存放路径
csv_path = os.path.join("C:\\algo_file", 'train.csv')
print(csv_path)
# 不存在此文件的时候,就创建
if not os.path.exists(csv_path):
with open(csv_path, 'w', newline='') as file:
csvwriter = csv.writer(file)
csvwriter.writerow(row)
i += 1
# 存在的时候就往里面添加
else:
with open(csv_path, 'a', newline='') as file:
csvwriter = csv.writer(file)
csvwriter.writerow(row)
i += 1
elif (i >= round(total_len * per/100)) and (i < total_len):
# vali.csv存放路径
csv_path = os.path.join("C:\\algo_file", 'vali.csv')
print(csv_path)
# 不存在此文件的时候,就创建
if not os.path.exists(csv_path):
with open(csv_path, 'w', newline='') as file:
csvwriter = csv.writer(file)
csvwriter.writerow(row)
i += 1
# 存在的时候就往里面添加
else:
with open(csv_path, 'a', newline='') as file:
csvwriter = csv.writer(file)
csvwriter.writerow(row)
i += 1
else:
break
print("训练集和验证集分离成功")
return
调用上述函数
if __name__ == '__main__':
path = 'C:\\algo_file\\data.csv'
total_len = len(open(path, 'r').readlines())# csv文件行数
per = 80 # 分割比例%
split_csv(path, total_len, per)
按照训练集占80%(验证集20%)比例,对C:\algo_file文件夹下的data.csv进行分割,在该文件下得到train.csv 和 vali.csv。
最后
本项目只是以C:\algo_file文件夹为例,实际上data.csv所在路径,train.csv所在路径,vali.csv所在路径包括文件名都可以更改。
将CSV文件以某列为条件分类切割
项目中有一个数据文件数量庞大,一个文件中按照年月日分成几十万条数据,想试试能不能用python把它简单切割一下,按照日期分类切成小的csv文件。
于是在网上找了很多资料,结合自己的一些修改,整理了一下,方便以后再用。
大概步骤
1、读取文件
2、找出需要分类的列
3、将此列中重复的内容删除,每类剩余一条
4、把该列所有符合某一类的内容存入一个csv文件中
上代码
import pandas as pd
# 读取文件数据
df=pd.read_csv('D:\\接收的文件\\lqf.csv', sep=',',engine='python',header=[0])
# 列csv文件中所有列
df.columns = ['year', 'date', 'statefips', 'countyfips', 'ctfips', 'latitude', 'longitude', 'DS_PM_pred', 'DS_PM_stdd']
# 删除date列中的重复项,也就是说剩下的date都是已经分好的类别
date_cate = df.drop_duplicates(subset=['date'])
print(date_cate.date)
print(range(len(date_cate))) # date中的所有类,也就是文件数
for name in date_cate.date:
print(name)
# 当date为某一个类时,存入一个小的csv文件中,文件名为类名
df[df.date == name].to_csv("D:\\接收的文件\\data\\"+u"%s" %name+".csv")
header=[0] #代表第一行为表头不计入其中,可根据表格修改。
!!!!!!(2)!!!!!!遍历文件夹中所有的文件然后进行切割,没啥用,自己做个存档而已 ↓↓↓↓↓
import pandas as pd
import os
j = 347
for info in os.listdir('D:\\接收的文件\year_02'):
domain = os.path.abspath(r'D:\\接收的文件\year_02') # 获取文件夹的路径
info = os.path.join(domain, info) # 将路径与文件名结合起来就是每个文件的完整路径
# 读取文件数据
df = pd.read_csv(info, sep=',', engine='python', header=[0])
# 列csv文件中所有列
df.columns = ['year', 'date', 'statefips', 'countyfips', 'ctfips', 'latitude', 'longitude', 'DS_PM_pred', 'DS_PM_stdd']
grouped = df.groupby('date')
# delete duplicated data
ind_frame = df.drop_duplicates(subset=['date'])
# print(ind_frame.date)
# print(range(len(ind_frame)))
for name in ind_frame.date:
# print(name)
j += 1
print("已经扫描到第" + '{}'.format(j)+'个文件')
df[df.date == name].to_csv("D:\\接收的文件\\data2\\" + u"%s" %name+".csv")
来源:https://blog.csdn.net/xiecheng1995/article/details/92431204
0
投稿
猜你喜欢
- 有关pygal的安装,大家可以参阅《pip和pygal的安装实例教程》。直方图:直方图是一个特殊的条,它可以取3个数值:纵坐标高度,横坐标开
- 官网文档http://www.yiiframework.com/doc-2.0/guide-structure-assets.htmlyii
- 我们一起来回顾一下上一次说到的 interface{}可以用来做多态接口类型分为空接口类型和非空接口类型,他们的底层数据结构不太一
- 环境准备创建QQ互联应用创建一个QQ互联应用,并获取到App ID和App Key。QQ互联官网:https://connect.qq.co
- 网页设计遇到最大的麻烦之一莫过于网页对不同浏览器的兼容性问题了,因为IE 6.0 / IE 7.0 / firefox 2 / Opera
- 首先还是应该科普下函数参数传递机制,传值和传引用是什么意思?函数参数传递机制问题在本质上是调用函数(过程)和被调用函数(过程)在调用发生时进
- replace 方法返回根据正则表达式进行文字替换后的字符串的复制。stringObj.replace(rgExp, replaceText
- 我就废话不多说了,直接上代码吧!第一种def test1(): l = [] for i in range(1000
- 本文实例讲述了Python使用tablib生成excel文件的方法。分享给大家供大家参考,具体如下:import tablibheaders
- 本文实例讲述了python实现文件快照加密保护的方法。分享给大家供大家参考。具体如下:这段代码可以对指定的目录进行扫描,包含子目录,对指定扩
- Google Chrome 的发布,使我们更加的注重基于 WebKit 核心的浏览器的表现情况,但我们很多时候“不小心”就会出现问题。考虑下
- 外部直接执行python文件时,我们有时需要获得命令行的参数获得命令行参数的两种方式1、通过sys.argvsys.argv:获得一个参数列
- 安装pyecharts:pip install pyecharts安装snapshot-selenium:pip install snaps
- 本文实例讲述了python抓取百度首页的方法。分享给大家供大家参考。具体实现方法如下:import urllibdef downURL(ur
- 元编程,一个听起来特别酷的词,强大的Lisp在这方面是好手,对于Python,尽管没有完善的元编程范式,一些天才的开发者还是创作了很多元编程
- 又有人说设session.timeout=99999。这种同样不行,session有最大时间限制。我经过测试发现最大值为24小时,也就是说你
- 题目描述1275. 找出井字棋的获胜者 - 力扣(LeetCode)A 和 B 在一个 3 x&nb
- 之所以有这样一篇文章,是因为在前几天的一个晚上,要下班的时候,业务方忽然有一个需求,是需要恢复一个表里面的数据,当时问了下情况
- 本文实例讲述了Python日志logging模块功能与用法。分享给大家供大家参考,具体如下:本文内容:logging模块的介绍logging
- Python既具有普通程序开发语言的特点,也具有Matlab语言用于数值计算的特点,,当然了数值计算是由其其强大的第三方库numpy实现的,