对python数据切割归并算法的实例讲解
作者:body_builder 发布时间:2023-02-10 05:32:08
标签:python,切割,归并
当一个 .txt 文件的数据过于庞大,此时想要对数据进行排序就需要先将数据进行切割,然后通过归并排序,最终实现对整体数据的排序。要实现这个过程我们需要进行以下几步:获取总数据行数;根据行数按照自己的需要对数据进行切割;对每组数据进行排序 最后对所有数据进行归并排序。
下面我们就来实现这整个过程:
一:获取总数据的行
def get_file_lines(file_path):
# 目标文件的路径
file_path = str(file_path)
with open(file_path, 'rb') as file:
# 定义行数
i = 0
while True:
# 一次读取一行数据
line = file.readline()
if not line :
break
else:
# 每读一行,行数加一
i += 1
#设置进度条,每当i读取1000000行时打印一次i
# 每当读取1000000的整数倍行时,打印行数(进度条)
if i % 1000000 == 0:
print(i)
# 打印总行数
print(i)
return i
二:对数据进行切割
# 定义均等切割函数,num是待切割的文件的行数的值,n为切割份数,file_path是待切割的文件,file_dir是切割好的文件写入的目录
def evg_split(num, n, file_path, file_dir):
last_list = []
# 如果样本刚好可以整除为n份
if num % n == 0:
for i in range(n):
# 则直接将样本分为n分没份对应num/n个
last_list.append(num / n)
# 如果不能整除
if num % n != 0:
# 如果不能整除,则先将num整除n-1并取n-1份,余下的单独做一份
evg = (num - num % n) // (n - 1)
for i in range(n):
last_list.append(evg)
last_list.append(num % (n - 1))
print(last_list)
# return last_list
# 对应于切割后的每一份数据
with open(file_path, 'rb') as path:
for i in range(n):
# 创建临时文件
tmp_file = file_dir + str(i) + '.txt'
# 打开临时文件,将内容一条一条的写入
file = open(tmp_file, 'wb')
for j in range(int(last_list[i])):
line = path.readline()
file.write(line)
print(line)
print('------------')
file.close()
三:对每组数据进行排序的内容由读者根据自身数据需要进行排序,下面直接介绍归并排序
四:归并排序
def merge( mylist1, mylist2, file1):
while len(mylist1) > 0 and len(mylist2) > 0:
if mylist1[0]<mylist2[0]:
with open(file1,'a') as file:
file.write(str(mylist1[0]))
del mylist1[0]
elif mylist1[0] > mylist2[0]:
with open(file1,'a') as file:
file.write(str(mylist2[0]))
del mylist2[0]
else:
with open(file1,'a') as file:
file.write(str(mylist1[0]))
file.write(str(mylist2[0]))
del mylist1[0]
del mylist2[0]
with open(file1, 'a') as file:
for i in mylist1:
file.write(str(i))
for i in mylist2:
file.write(str(i))
总结:对于一个大型数据文件,我们可以将其切割成若干个小型的数据文件,然后分别的这些小型的数据文件进行排序,最后使用归并排序将这些数据文件写入到一个总体文件中,从而实现了对这个大型数据文件的排序。
来源:https://blog.csdn.net/body_builder/article/details/79437333


猜你喜欢
- 1. 类的继承与方法的重载上面就是先定义了一个类A,然后由定义了一个类B,B继承了类A,这样B就有了A的非私有属性和方法。class Was
- 首先声明:本人虽然在web前端岗位干了好多年,但无奈岗位对技术要求不高。html,css用的比较多,JavaScript自己原创的很少,基本
- mysql实现sequence功能1.建立sequence记录表CREATE TABLE `sys_sequence` ( `seq_nam
- 众所周知,由于 GIL 的存在,Python 单进程中的所有操作都是在一个CPU核上进行的,所以为了提高运行速度,我们一般会采用多进程的方式
- 目录一、介绍1.什么是索引?2.为什么要有索引呢?二、索引的原理一 索引原理二 磁盘IO与预读三、索引的数据结构四、Mysql索引管理一、功
- 先发官方文档的地址:官方文档学习使用的书籍是Python网络数据采集(Ryan Mitchell著),大约是一些笔记的整理。Beautifu
- 前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。from math
- 继上一篇中间表的数据是动态的,图表展示的数据才比较准确。这里用到一个新的模块Djcelery,安装配置步骤如下:1.安装redis==2.1
- #!c:\python27\python.exe# -*- coding: utf-8 -*-import osimport refrom
- 概述web项目,经常需要热启动各种各样的配置信息,一旦这些服务发生变更,我们需要重新启动web server,以使配置生效,实现配置热加载。
- /1 前言/最近酒店被曝出隐藏摄像头的事情屡见不鲜,搞得大家人心惶惶,有图为证,如下图所示。今天教大家一下如何用python分析出酒店里的针
- golang 函数以及函数和方法的区别在接触到go之前,我认为函数和方法只是同一个东西的两个名字而已(在我熟悉的c/c++,python,j
- 第一种, 使用create_connection链接,需要pip install websocket-client (此方法不建议使用,链接
- 前言虽然标题是全站,但目前只做了等级 top 100 直播间的全天弹幕收集。弹幕收集系统基于之前的B 站直播弹幕姬 Python 版修改而来
- 前言format语法格式:str.format()str是指字符串实例对象,常用格式为‘ ’.for
- 前言 上一篇文章,我们讲解了图像处理中的阈值函数,这一篇文章我们来做膨胀和腐蚀函数。膨胀与腐蚀 说概念可能很难解释,我们来看图,首先是原图:
- 本文实例讲述了Python实现绘制双柱状图并显示数值功能。分享给大家供大家参考,具体如下:# -*- coding:utf-8 -*-#!
- Django Model的外键自关联在django的model定义中,有时需要某个Field引用当前定义的Model,比如一个部门(Depa
- js的setTimeout方法用处比较多,通常用在页面刷新了、延迟执行了等等。但是很多javascript新手对setTimeout的用法还
- 下表列出了所有Python语言支持的赋值运算符。假设变量a持有10和变量b持有20,则: 例如:试试下面的例子就明白了所有在Pyt