Python开发之迭代器&生成器的实战案例分享
作者:不背锅运维 发布时间:2021-03-18 17:34:33
迭代器&生成器
在 Python 中,迭代器和生成器都是用来遍历数据集合的工具,可以按需逐个生成或返回数据,从而避免一次性加载整个数据集合所带来的性能问题和内存消耗问题。
具体来说,迭代器是一个包含 iter() 和 next() 方法的对象,它通过 next() 方法依次返回数据集合中的每个元素,直到没有元素时引发 StopIteration 异常。迭代器可以自定义,也可以使用 Python 内置的可迭代对象,如列表、元组、字典、集合等,以及内置的迭代器函数,如 zip()、map()、filter() 等。
而生成器是一种特殊的迭代器,它使用 yield 关键字来定义,可以在需要时生成数据,从而实现按需生成、惰性计算的效果。生成器可以大大简化代码,提高性能和可读性,也可以通过生成器表达式快速创建简单的生成器。
下面分享几个贴近实际运维开发工作中的场景案例。
实战案例
1.假设需要从一个非常大的数据集合中查找满足特定条件的元素,并且只需要找到第一个符合条件的元素即可停止查找。如果直接遍历整个数据集合,可能会导致性能问题。这时可以使用迭代器和生成器来解决这个问题。
def find_first_match(data, condition):
for item in data:
if condition(item):
return item
raise ValueError('No matching item found')
large_data = [i for i in range(10000000)] # 构造一个大数据集合
match = find_first_match(large_data, lambda x: x > 1000) # 查找第一个大于 1000 的元素
print(match)
2.假设要实现一个函数,它接受一个字符串列表,然后返回这些字符串中所有字符的出现次数。可以使用迭代器和生成器来避免遍历整个列表,并减少内存使用量。
def char_count(words):
counts = {}
for word in words:
for char in word:
counts[char] = counts.get(char, 0) + 1
return counts
def char_count_lazy(words):
def char_gen(words):
for word in words:
for char in word:
yield char
counts = {}
for char in char_gen(words):
counts[char] = counts.get(char, 0) + 1
return counts
3.需要遍历一个多级嵌套的 JSON 对象,查找其中某个特定的值。假设 JSON 对象很大,因此不能一次性加载到内存中。这时可以使用生成器来逐级遍历 JSON 对象。
def find_value(json_obj, target_key):
if isinstance(json_obj, dict):
for key, value in json_obj.items():
if key == target_key:
yield value
else:
yield from find_value(value, target_key)
elif isinstance(json_obj, list):
for item in json_obj:
yield from find_value(item, target_key)
json_data = {
"name": "tantianran",
"age": 30,
"cars": [
{"model": "BMW", "year": 2000},
{"model": "Tesla", "year": 2020}
],
"location": {
"address": "123 Main St",
"city": "New York",
"state": "NY"
}
}
for value in find_value(json_data, "year"):
print(value)
4.如果需要读取一个非常大的文件,并对其中的每一行进行处理,但是由于文件太大,无法一次性将整个文件读入内存中。这时可以使用生成器来实现逐行读取文件并逐行处理的操作。
def process_lines(file_name):
with open(file_name) as f:
for line in f:
# 对每一行进行处理,这里只是简单地打印出来
print(line.strip())
large_file = 'data.txt'
process_lines(large_file)
5.假设有一个大型日志文件,其中包含了数千万行日志记录。需要对这个日志文件进行分析,找出所有包含特定关键字的日志记录,并进行统计。如果直接读取整个日志文件到内存中,可能会导致内存不足的问题。这时可以使用迭代器和生成器来解决这个问题。
def log_file_reader(log_file_path):
with open(log_file_path) as f:
for line in f:
yield line.strip()
def log_analyzer(log_file_path, keyword):
log_reader = log_file_reader(log_file_path)
count = 0
for line in log_reader:
if keyword in line:
count += 1
return count
log_file_path = 'logs.txt'
keyword = 'error'
error_count = log_analyzer(log_file_path, keyword)
print(f'The number of error logs is: {error_count}')
来源:https://mp.weixin.qq.com/s/g9A4rMKscHt8gKJq34sKQw


猜你喜欢
- 我们平日办公时用得最多的软件是Execl、Word或WPS Office等,你的计算机中一定储存着大量的XLS、DOC、WPS文件吧!网页制
- 话不多说,请看代码:SQLServer Procedure Pagination_basic:ALTER PROCEDURE [qianch
- 适配竖屏横向尺度,禁止出现横向滚屏常规QVGA机型竖屏状态下,14号字体,单行仅显示13.5个字。资讯频道的新闻短标题要控制在13字以内才能
- 本文实例讲述了JS使用ajax从xml文件动态获取数据显示的方法。分享给大家供大家参考。具体分析如下:下面的JS代码通过ajax检索xml文
- 先给大家介绍下python中format函数,在文章下面给大家介绍python.format()函数的简单使用---恢复内容开始---pyt
- 主要记录一下:图片验证码1.获取登录界面的图片2.获取验证码位置3.在登录页面截取验证码保存4.调用百度api识别(目前准确率较高的识别图片
- 项目地址是:https://www.chenshiyang.com/dytk接下来我们分析下源码简要看下实现原理。实现原理该项目不需要使用模
- 大家好,我是Peter~本文讲解的是如何利用Pandas函数求解两个DataFrame的差集、交集、并集。模拟数据模拟一份简单的数据:In
- 什么是生产者消费者模型在 工作中,大家可能会碰到这样一种情况:某个模块负责产生数据,这些数据由另一个模块来负责处理(此处的模块是广义的,可以
- python3批量删除豆瓣分组下的好友的实现代码"""python3批量删除豆瓣分组下的好友2016年6月7日
- 前言:re模块(正则表达)是Python中的重要组成部分,这里涉及到字符串的匹配,转换,自定义格式化…&hel
- 本系列不会对python语法,理论作详细说明;所以不是一个学习教材;而这里只是我一个学习python的某些专题的总结。1. random()
- 一、创建数据库标准1.表的必备三个字段:id、gmt_create、gmt_modified2.gmt_create是创建时间,gmt_mo
- 装饰器本质上是一个 Python 函数或类,它可以让其他函数或类在不需要做任何代码修改的前提下增加额外功能,装饰器的返回值也是一个函数/类对
- 之前我们在入门jdbc的时候,常用这种方法连接数据库:package util;import java.sql.Connection;imp
- 1、使用基础Python代码来读写和处理CSV文件import sys#使用基础Python代码来读写和处理CSV文件input_file
- 在项目中,我们需要运用到很多来自后端返回的数据。有时是上百条,有时甚至上千条。如果加上后端的多表查询或者数据量过大,这就导致在前
- 最最简单的操作import numpy as npimport matplotlib.pyplot as pltfig = plt.figu
- 先看一下合并后的样式,表格第二行,二三四列合并官网给我们提供了span-method的方法可以进行表格合并,有4个参数返回:row,colu
- 本文实例讲述了Python操作mongodb数据库的方法。分享给大家供大家参考,具体如下:安装pymongo下载pymongo:https: