位置：首页>> 网络编程>> Python编程>> Python读大数据txt

Python读大数据txt

作者：hebedich　　发布时间：2021-12-29 20:34:12　

标签：Python,txt

如果直接对大文件对象调用 read() 方法，会导致不可预测的内存占用。好的方法是利用固定长度的缓冲区来不断读取文件内容。即通过yield。

在用Python读一个两个多G的txt文本时，天真的直接用readlines方法，结果一运行内存就崩了。

还好同事点拨了下，用yield方法，测试了下果然毫无压力。咎其原因，原来是readlines是把文本内容全部放于内存中，而yield则是类似于生成器。

代码如下：

def open_txt(file_name):
with open(file_name,'r+') as f:
while True:
line = f.readline()
if not line:
return
yield line.strip()

调用实例：

for text in open_txt('aa.txt'):
print text

例二：

目标 txt 文件大概有6G，想取出前面1000条数据保存于一个新的 txt 文件中做余下的操作，虽然不知道这样做有没有必要但还是先小数据量测试一下吧。参考这个帖子：我想把一个list列表保存到一个Txt文档，该怎么保存，自己写了一个简单的小程序。
====================================================

import datetime
import pickle

start = datetime.datetime.now()
print "start--％s" ％ (start)

fileHandle = open ( 'train.txt' )
file2 = open('s_train.txt','w')

i = 1
while ( i < 10000 ):
a = fileHandle.readline()
file2.write(''.join(a))
i = i + 1

fileHandle.close()
file2.close()

print "done--％s" ％ ( datetime.datetime.now() - start)

if __name__ == '__main__':
pass

====================================================
pickle 这个库大家说的很多，官网看看，后面可以好好学习一下。

0

投稿

猜你喜欢

使用Dreamweaver MX表格排序功能
教育信息化时代，考试成绩也要求上网公布。一次我将考试成绩制作成一个HTML文件，如图1所示，领导审查的意见是“将成绩按名次排列”，可是所有的
细数nn.BCELoss与nn.CrossEntropyLoss的区别
以前我浏览博客的时候记得别人说过，BCELoss与CrossEntropyLoss都是用于分类问题。可以知道，BCELoss是Binary
python+ffmpeg视频并发直播压力测试
通过python与ffmpeg结合使用，可生成进行视频点播、直播的压力测试脚本。可支持不同类型的视频流，比如rtmp或者hls形式。通过如
numpy中的transpose函数中具体使用方法
二维矩阵的transpose函数：不晓得该怎么起头，直接上干货。transpose（）简单来说，就相当于数学中的转置，在矩阵中，转置就是把行
Redis IP地址的绑定的实现
很多时候我们的redis的IP地址一般都是默认的127.0.0.1代表只能接受本机的访问，因此我们其他机器上想要访问这个redis的时候，就
一篇文章带你了解python集合基础
1. 集合类型定义（1）集合是多个元素的无序组合集合类型与数学中的集合概念一致集合元素之间无序，每个元素唯一，不存在相同元素集合元素不可更改
Python matplotlib绘制图形实例(包括点,曲线,注释和箭头)
Python的matplotlib模块绘制图形功能很强大，今天就用pyplot绘制一个简单的图形，图形中包括曲线、曲线上的点、注释和指向点的
细节设计之美：扩大可操作区域
从 Google 的一个细节说起：整个虚线框都是“Next”的可点击区域。看似不经意，却直接提升了细节的可用性。其它页码也巧妙地和上面的字母
asp textarea 多行数组分割处理方法
所以对应的asp处理代码如下代码如下:dedearr=split(xiangguanid2,chr(13)) '分割成数组
Python远程SSH库Paramiko详细操作
paramiko是用python语言写的一个模块，遵循SSH2协议，支持以加密和认证的方式，进行远程服务器的连接。paramiko支持Lin
Python 如何展开嵌套的序列
问题你想将一个多层嵌套的序列展开成一个单层列表解决方案可以写一个包含 yield from 语句的递归生成器来轻松解决这个问题。比如：fro
对python中的pop函数和append函数详解
pop()函数1、描述pop() 函数用于移除列表中的一个元素（默认最后一个元素），并且返回该元素的值。语法pop()方法语法：list.p
Python中的延迟绑定原理详解
直接看下面例子my_ld = [lambda x:x*i for i in range(3)]my_list = [ld(2) for ld
python 画函数曲线示例
如下所示：import numpy as npimport matplotlib.pyplot as pltx = np.linspace(
Python 代码性能优化技巧分享
如何进行 Python 性能优化，是本文探讨的主要问题。本文会涉及常见的代码优化方法，性能优化工具的使用以及如何诊断代码的性能瓶颈等内容，希
网址导航的组织方法
做设计类网址导航的初衷是为了资源整合，也是在尝试解决问题。假定访问用户都是行业人士，或者目地性很强的有一定了解的用户，应该如何考虑这个组织系
解决python 使用openpyxl读写大文件的坑
由于需要处理xlsx类型的文件，我使用了openpyxl来处理，然而文件比较大，大约有60多MB。读文件的时候虽然慢了一点，但还是能够读出来
Python在不同场景合并多个Excel的方法
前言三种场景：多个同字段的excel文件合并成一个excel多个不同字段的excel文件拼接成一个excel一个excel的多个sheet合
python 创建一维的0向量实例
第一种方法：A=[0]*8第二种方法：import numpy as np A=np.zeros(8)来源：https://blog.csd
Python中文件的写入读取以及附加文字方法
今天学习到python的读取文件部分。还是以一段代码为例：filename='programming.txt'with op

python实现简单神经网络算法

关于Python字符编码与二进制不得不说的一些事

Python实现学生管理系统的代码(JSON模块)

Python supervisor强大的进程管理工具的使用

django美化后台django-suit的安装配置操作

Python绘制牛奶冻曲线(高木曲线)案例

python argparse 模块命令行参数用法及说明

python傅里叶变换FFT绘制频谱图

Python接口测试环境搭建过程详解

python计算n的阶乘的方法代码

如何压缩wps文字中的图片

Python matplotlib以日期为x轴作图代码实例

WPS2019幻灯片怎么取消默认的黑白渐变背景?

jRaiser与jQuery的冲突问题

Oracle中时间日期转化函数to_date和to_char的具体使用

使用SUMIF函数统计单字段多条件求和的方法

python实现壁纸批量下载代码实例

Win10专业版怎么设置闹钟？Win10设置闹钟的方法

想要打开U盘需要格式化那么应该如何保存原有数据？

BT5不能使用apt-get命令的解决方案

手机版 网络编程 asp之家 www.aspxhome.com