使用python进行拆分大文件的方法
作者:IBoyMan 发布时间:2022-06-23 17:54:04
标签:python,拆分,大文件
python按指定行数把大文件进行拆分
如图大文件有7000多万行,大小为16G
需要拆分成多个200万行的小文件
代码如下:
# -*- coding:utf-8 -*-
from datetime import datetime
def Main():
source_dir = '/data/u_lx_data/zhangqm/sh/yanjie/liuxuesheng/jz_yuanshi_list0206.txt'
target_dir = '/data/u_lx_data/zhangqm/sh/yanjie/liuxuesheng/split/'
# 计数器
flag = 0
# 文件名
name = 1
# 存放数据
dataList = []
print("开始。。。。。")
print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
with open(source_dir,'r') as f_source:
for line in f_source:
flag+=1
dataList.append(line)
if flag == 2000000:
with open(target_dir+"jz_yuanshi_list_"+str(name)+".txt",'w+') as f_target:
for data in dataList:
f_target.write(data)
name+=1
flag = 0
dataList = []
# 处理最后一批行数少于200万行的
with open(target_dir+"jz_yuanshi_list_"+str(name)+".txt",'w+') as f_target:
for data in dataList:
f_target.write(data)
print("完成。。。。。")
print(datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
if __name__ == "__main__":
Main()
结果如下:
总 * 生39个文件,最后一个文件行数760821,这样就OK啦
经测试16G文件所需时间如图:不到两分钟
来源:https://blog.csdn.net/IBoyMan/article/details/79419347


猜你喜欢
- 一、前期配置 1. 加入依赖<dependency> <groupId>co
- 下面是效果图,这个效果图是没有开启干扰码的效果图 下面是类代码 <?php /****************************
- 通过web框架搭建一个最简易的程序:第一步:新建一个web框架程序通过CMD进入到想要创建web程序的文件夹数据命令django-admin
- 一、为什么提出python编程的核心是什么?我想要Python实现,这已经不是什么秘密了。WebAssembly它不仅会让Python进入浏
- Unet是一个最近比较火的网络结构。它的理论已经有很多大佬在讨论了。本文主要从实际操作的层面,讲解pytorch从头开始搭建UNet++的过
- 一个简单的for语句就能循环字典的所有键,就像处理序列一样:In [1]: d = {'x':1, 'y':
- 前言本文主要给大家分享了一些简单的Python练习题,对学习python的新手们来说是个不错的练习问题,下面话不多说了,来一起看看详细的介绍
- 前言内存映射通常可以提高I/O的性能,因为使用内存映射时,不需要对每个访问都建立一个单独的系统调用,也不需要在缓冲区之间复制数据,内核和用户
- 发现问题最近在工作中遇到一个问题,MySQL数据库建表的时候采用的是latin的字符集,而网页中查询的是utf-8,当输入页面输入中文,然后
- 一、DatasetDataset 类提供一种方式去获取数据及其标签主要有两个目的:获取每一个数据及其标签获取数据的总量大小1. 在控制台进行
- 如下所示:# coding=gbkfrom PIL import Imageimport numpy as np# import scipy
- 我经常需要用Python与solr进行异步请求工作。这里有段代码阻塞在Solr http请求上, 直到第一个完成才会执行第二个请
- NumPy 是一个Python 库,用于 Python 编程中的科学计算。在本教程中,你将学习如何在 NumPy 数组上以多种方式添加、删除
- 生命游戏的算法就不多解释了,百度一下介绍随处可见。因为网上大多数版本都是基于pygame,matlab等外部库实现的,二维数组大多是用num
- 在做开发的朋友特别是和mysql有接触的朋友会碰到有时mysql查询很慢,当然我指的是大数据量百万千万级了,不是几十条了,下面我们来看看解决
- 通常情况下我们在更新数据时需要先从数据库里将原数据取出后放在内存里,然后编辑某些字段或属性,最后提交更新数据库。使用F方法则可以帮助我们避免
- 如果有了解过python中的列表和元组,你可能会知道相对于列表,元组是不可变的,也就是说元组中的数据不能随意更改。除了列表是用中括号表示而元
- 牛顿法求平方根原理计算机常用循环来计算F的平方根.从某个猜测的x值开始,根据x^2与F的近似度来调整x,产生一个更好的猜测:x -= (x
- 问题jupyter notebook读入csv数据时出现错误“SyntaxError: (unicode error) ‘unicodees
- 引言委托 和 事件在 .Net Framework中的应用非常广泛,然而,较好地理解委托和事件对很多接触C#时间不长的人来说并不容易。它们就