对python数据切割归并算法的实例讲解
作者:body_builder 发布时间:2023-02-10 05:32:08
标签:python,切割,归并
当一个 .txt 文件的数据过于庞大,此时想要对数据进行排序就需要先将数据进行切割,然后通过归并排序,最终实现对整体数据的排序。要实现这个过程我们需要进行以下几步:获取总数据行数;根据行数按照自己的需要对数据进行切割;对每组数据进行排序 最后对所有数据进行归并排序。
下面我们就来实现这整个过程:
一:获取总数据的行
def get_file_lines(file_path):
# 目标文件的路径
file_path = str(file_path)
with open(file_path, 'rb') as file:
# 定义行数
i = 0
while True:
# 一次读取一行数据
line = file.readline()
if not line :
break
else:
# 每读一行,行数加一
i += 1
#设置进度条,每当i读取1000000行时打印一次i
# 每当读取1000000的整数倍行时,打印行数(进度条)
if i % 1000000 == 0:
print(i)
# 打印总行数
print(i)
return i
二:对数据进行切割
# 定义均等切割函数,num是待切割的文件的行数的值,n为切割份数,file_path是待切割的文件,file_dir是切割好的文件写入的目录
def evg_split(num, n, file_path, file_dir):
last_list = []
# 如果样本刚好可以整除为n份
if num % n == 0:
for i in range(n):
# 则直接将样本分为n分没份对应num/n个
last_list.append(num / n)
# 如果不能整除
if num % n != 0:
# 如果不能整除,则先将num整除n-1并取n-1份,余下的单独做一份
evg = (num - num % n) // (n - 1)
for i in range(n):
last_list.append(evg)
last_list.append(num % (n - 1))
print(last_list)
# return last_list
# 对应于切割后的每一份数据
with open(file_path, 'rb') as path:
for i in range(n):
# 创建临时文件
tmp_file = file_dir + str(i) + '.txt'
# 打开临时文件,将内容一条一条的写入
file = open(tmp_file, 'wb')
for j in range(int(last_list[i])):
line = path.readline()
file.write(line)
print(line)
print('------------')
file.close()
三:对每组数据进行排序的内容由读者根据自身数据需要进行排序,下面直接介绍归并排序
四:归并排序
def merge( mylist1, mylist2, file1):
while len(mylist1) > 0 and len(mylist2) > 0:
if mylist1[0]<mylist2[0]:
with open(file1,'a') as file:
file.write(str(mylist1[0]))
del mylist1[0]
elif mylist1[0] > mylist2[0]:
with open(file1,'a') as file:
file.write(str(mylist2[0]))
del mylist2[0]
else:
with open(file1,'a') as file:
file.write(str(mylist1[0]))
file.write(str(mylist2[0]))
del mylist1[0]
del mylist2[0]
with open(file1, 'a') as file:
for i in mylist1:
file.write(str(i))
for i in mylist2:
file.write(str(i))
总结:对于一个大型数据文件,我们可以将其切割成若干个小型的数据文件,然后分别的这些小型的数据文件进行排序,最后使用归并排序将这些数据文件写入到一个总体文件中,从而实现了对这个大型数据文件的排序。
来源:https://blog.csdn.net/body_builder/article/details/79437333
0
投稿
猜你喜欢
- 疫情还没结束,小编只能宅在家里,哪哪也去不了,今天突发奇想给大家分享一篇教程关于Python paramiko 模块浅谈与SSH主要功能模拟
- 本文讲述了Symfony核心类。分享给大家供大家参考,具体如下:Symfony的核心类Symfony的MVC方式使用了一些你以后会经常碰到的
- 大家在打开带有图片的网页时,有时会看到这样的情况:当鼠标指向图片的不同部位时,可以打开不同的超链接,这
- 载入库绘制表格我们需要用到python库中的matplotlib库import matplotlib.pyplot as plt一、折线图#
- 由于我们分发的python应用可能运行在64位环境,也可能运行在32位环境,所以我们需要为同一套应用代码配置两套打包环境,怎么配置?步骤如下
- 最近很少写CSS了,以后也可能写的会很少了,所以还是想把自已的一些经验能和大家分享一下,希望能给大家一些帮助!这篇文章主要写的提高网页在客户
- 简介进行按钮进行界面的跳转,我这里面我介绍两种,一种是没有使用Qtdesigner的代码,另一种是使用Qtdesigner的代码代码1imp
- 本文介绍了6个asp常用的判断函数的语法和使用方法,有IsArray 函数,IsDate 函数 ,IsEmpty 函数,IsNull 函数,
- 序章yield item这行代码会产出一个值,提供给next()的调用方;此外还会做出让步,暂停执行生成器,让调用方继续工作,知道需要使用另
- TMD这年头做前端真命苦,IE出了N个版本就算了,还跳出个马桶出来。你说你这个马桶,用人家内核就好好用拉。还改人家的东西干啥,那你改就改拉,
- 页签的流行自从Yahoo!的首页引进页签(tab, 见下图)之后,这种可用性极佳的方式越来越受欢迎,用户也逐步习惯和喜欢上它,因为它可以在原
- mysql数据库没有增量备份的机制,当数据量太大的时候备份是一个很大的问题。还好mysql数据库提供了一种主从备份的机制,其实就是把主数据库
- 前言说到幻影坦克,我就想起红色警戒里的……幻影坦克(Mirage Tank),《红色警戒2》以及《尤里的复仇》中盟军的一款伪装坦克,盟军王牌
- 平时我们获取事件对象一般写法如下:function getEvent(event) { return event
- 1、使用说明首先说明,本文所使用的功能为pycharm专业版所支持,其他版本如社区版,教育版,则不一定支持。作为一名后端开发,我猜你的桌面上
- 功能:实现网页内容的即时编辑,增加页面的可用性、交互性。方法1:直接通过textarea标签实现,请运行下边代码:<!DOCTYPE
- Python的matplotlib模块绘制图形功能很强大,今天就用pyplot绘制一个简单的图形,图形中包括曲线、曲线上的点、注释和指向点的
- 等了好久的小程序,终于在近日曝光了。现在就带大家来尝尝鲜。以下是一张随便看看的图。一、构建微信小程序的步骤下载开发工具考虑到微信0.9.09
- 首先下载搜索图标:控件中的搜索图标下载地址:http://www.easyicon.net/1183666-Search_icon.html
- 看到有人用的PJBlog使用的是自动填写验证码,这样其实也不使用验证码基本上没有什么区别,很容易被 * ,因此在参照许多修改的基础上,找到