用Python实现大文本文件切割的方法
作者:zhang_qxian 发布时间:2021-12-19 23:16:53
标签:Python,大文本,文件,切割
在实际工作中,有些场景下,因为产品既有功能限制,不支持特大文件的直接处理,需要把大文件进行切割处理。
当然可以通过UltraEdit编辑工具,或者从网上下载一些文件切割器之类的。但这些要么手工操作太麻烦,要么不能满足自定义需求。
而且,对程序员来说,DIY一个轮子还是有必要的。
Python作为快速开发工具,其代码表达力强,开发效率高,因此用Python快速写一个,还是可行的。
需求描述:
输入:给定一个带列头的csv文件,或者txt文件,或者其他文本文件。
输出:指定单文件内部行数的一系列可区分小文件。
开发环境:Python 3.6
代码如下:
# -*- coding: cp936 -*-
import os
import time
def mkSubFile(lines,head,srcName,sub):
[des_filename, extname] = os.path.splitext(srcName)
filename = des_filename + '_' + str(sub) + extname
print( 'make file: %s' %filename)
fout = open(filename,'w')
try:
fout.writelines([head])
fout.writelines(lines)
return sub + 1
finally:
fout.close()
def splitByLineCount(filename,count):
fin = open(filename,'r')
try:
head = fin.readline()
buf = []
sub = 1
for line in fin:
buf.append(line)
if len(buf) == count:
sub = mkSubFile(buf,head,filename,sub)
buf = []
if len(buf) != 0:
sub = mkSubFile(buf,head,filename,sub)
finally:
fin.close()
if __name__ == '__main__':
begin = time.time()
splitByLineCount('盂县.csv',600000)
end = time.time()
print('time is %d seconds ' % (end - begin))
测试结果:
1.4GB的csv文件,13列数据,切分成23个小文件,耗时55秒。
来源:https://blog.csdn.net/zhang_qxian/article/details/62428492


猜你喜欢
- Linux版本升级:1、首先确认Linux操作系统中自带的python 版本时候与自己所需要的版本一致所有的python版本都在https:
- 一,元祖(tuple)1.元祖是不能修改的,通常写成圆括号中的一系列项,位置有序,固定长度2.实际上元祖支持字符串和列表的一般序列操作,“+
- 项目开始时是一个关键时刻,选择会对项目产生长期的影响。有很多关于如何开始使用Django框架的教程,但很少讨论如何专业地使用Django,或
- 乱码问题如下:导致问题产生的原因很简单,无非是命令行的编码和MySQL内部设置的编码出现了偏差。我们右键属性查看以下命令行的编码方式是GBK
- 在transactional replication, 经常会遇到数据同步延迟的情况。有时候这些延迟是由于在publication中执行了一
- 1:数据源Hollywood Movie Dataset: 好莱坞2006-2011数据集实验目的: 实现 统计2006-2011的数据综合
- 如果你正在学习编程,那么掌握 Python map 函数是你升级的机会。想象一下:你想成为一个更高效的程序员,你希望代码编译得更快,你想用你
- 前言又到了每日分享Python小技巧的时候了,今天给大家分享的是Python中两种常见的数据类型合并方法。1 合并字典在某些场景下,我们需要
- 如下所示:# -*- coding: utf-8 -*-import osimport numpy as npimport pandas a
- 记得很早以前看到过这样的一段介绍:想象你在逛街边的一家书店,如果最终你没有购买任何图书就直接离开了,店长并不会知道你来过。但是如果你买了书,
- 问题一般在服务器上进行环境安装的时候有多种方式,比如docker, conda等。conda肯使用起来更加简便,docker更适合服务器部署
- def quick_sort(ls): return [] if ls == [] else quick_sort([y for y in
- 本文实例为大家分享了JavaScript实现秒杀时钟倒计时的具体代码,供大家参考,具体内容如下功能介绍:1.时/分/秒倒计时直至为零所有代码
- 程序思路:此次程序主要是利用PIL(Python Image Libraty)这库,来进行图片的处理。PIL是一个功能非常强大的python
- rpc有多种调用方式,http、json-rpc、tcp一、服务端在代码中,启动了三个服务package mainimport ("
- 本文实例讲述了Thinkphp5框架实现获取数据库数据到视图的方法。分享给大家供大家参考,具体如下:这是学习thinkhp5的基础篇笔记。这
- 在这篇文章中,我将介绍如何识别导致性能出现问题的查询,如何找出它们的问题所在,以及快速修复这些问题和其他加快查询速度的方法。你一定知道,一个
- 1.下载Linux对应的RPM包http://dev.mysql.com/downloads/mysql/5.6.htmlwget http
- 前言最近有个软件专业等级考试,以下简称软考,为了更好的复习备考,我打算抓取www.rkpass.cn网上的软考试题。首先讲述一下我爬取软考试
- 什么是python的迭代如果给定一个list或tuple,我们可以通过for循环来遍历这个list或tuple,这种遍历我们称为迭代(Ite