用Python实现数据筛选与匹配实例
作者:mez_Blog 发布时间:2023-01-13 15:31:42
下面我们将学习两个项目案例代码,分别解决Excel常见场景中的数据筛选问题和数据匹配问题。
数据筛选要求我们在表中筛选出符合条件的数据。
数据匹配需要我们在多个表之间匹配相关的数据。
与之前一样,完成项目问题的代码,需要我们先分析数据筛选和数据匹配的需求,再找到对应知识点,确定代码的执行顺序,从而实现项目代码。
案例一:数据筛选
这个案例需要我们筛选出迟到人员的信息,来具体看看。
在【10月考勤统计.xlsx】工作簿中,保存了公司一百名员工的迟到信息,这些信息包含了迟到时间和迟到次数。
公司规定,迟到时间超过45分钟且迟到过3次以上的员工记为考勤不合格,需要扣除300的考勤保证金。
之前的同事需要把筛选后的结果保存为【10月迟到人员信息.xlsx】,并将整理后的信息上报给领导。
那么如何用代码实现这个场景呢?
在编写代码之前,我们要先明确任务需求。
根据公司的规定,筛选出【10月考勤统计.xlsx】中迟到时间大于45分钟并且迟到次数超过3次以上的员工信息,将迟到人员信息打印出来后再存入新工作簿【10月迟到人员信息.xlsx】中。
代码实现:
from openpyxl import load_workbook, Workbook
# 打开【10月考勤统计.xlsx】工作簿
wb = load_workbook('./material/10月考勤统计.xlsx')
# 获取活动工作表
ws = wb.active
print(ws)
print(ws[1])
print('----------------')
# 获取表头
late_header = []
for cell in ws[1]:
late_header.append(cell.value)
print(cell.value)
# 新建工作簿
new_wb = Workbook()
# 获取新工作簿中的工作表
new_ws = new_wb.active
# 将表头写入新工作簿的工作表中
new_ws.append(late_header)
# 从第二行开始遍历表格
for row in ws.iter_rows(min_row=2, values_only=True):
# 取出姓名,迟到时间和迟到次数
name = row[1]
time = row[3]
number = row[-1]
# 判断是否迟到
if time > 45 and number > 3:
print('{}迟到了{}分钟,迟到了{}次'.format(name, time, number))
# 将迟到人员信息写入新工作簿的工作表中
new_ws.append(row)
# 将新工作簿保存为【10月迟到人员信息.xlsx】
new_wb.save('./material/10月迟到人员信息.xlsx')
运行结果:
根据任务需求,我们需要获取两部分数据:表头数据和表头以外的所有数据。
你可能会比较疑惑,为什么要单独获取表头数据呢?
由于任务需要我们生成新的工作簿【10月迟到人员信息.xlsx】,新工作簿中的表头与【10月考勤统计.xlsx】相同,所以我们需要获取到表头的数据以便后续使用。
使用数据
我们需要在这一步实现数据筛选功能,通过分析任务需求可以总结出三个筛选条件:
1)迟到时间大于45分钟。
2)迟到次数大于3次。
3)同时满足上面两个条件。
明确了筛选条件后,就可以借助条件判断语句,比较运算符,成员运算符和逻辑运算符等Python基础知识,实现对于数据的筛选,即将上面得到的筛选条件用Python语言实现出来。
假设我们用time
来代表迟到时间,用number
代表迟到次数,那么筛选条件就可以写为:if time > 45 and number > 3:
数据输出
完成筛选后,我们需要根据实际需求将筛选结果输出到终端,或将筛选结果保存起来。
本次任务要求我们将筛选后的员工信息打印出来,并且存储到【10月迟到人员信息.xlsx】中。
如果需要获取工作簿中满足某些条件的数据,这种场景就可以被归类为数据筛选场景。
处理该场景时,可以按照获取数据,使用数据和数据输出这三个步骤来处理。
首先是获取数据,使用上节课学习过的表格读写的相关知识,根据任务需求,确定要获取的是零散的单元格,是单行/单列,还是多行/多列的数据。
数据筛选的关键落在了筛选二字上,我们可以在使用数据这一步中实现筛选功能。
在这一步,要仔细理解任务需求,明确筛选条件,然后根据实际情况,选择Python基础语法的相关知识(条件判断语句,比较运算符,成员运算符和逻辑运算符),构造筛选条件。
最后是数据输出部分,根据实际需要输出筛选结果,或将筛选结果保存起来。总结起来可以分为三类:
1)将筛选的结果存入学过的数据结构里,比如:列表,元组或字典。
2)将筛选的结果存入文件中。
3)将筛选的结果打印出来。
案例二:数据匹配
这个案例需要我们匹配两张表格中指定的迟到次数,先来看看案例场景。
现有两张表格,【10月考勤统计.xlsx】中记录了员工十月份的迟到次数数据,这份表格是公司行政手动记录的。
【迟到次数月度统计(10月更新).xlsx】中按月记录了员工每月的迟到次数数据,这份表格是由公司的考勤系统自动生成的。
两份表格中的数据可以通过工号一一对应。
现需要核对两张表格中10月迟到次数是否匹配(即两表中相同工号在十月份的迟到次数是否一致),并在终端提醒相关人员去核查不匹配的情况。
代码实现:
from openpyxl import load_workbook
# 打开工作簿【10月考勤统计.xlsx】,获取活动工作表
wb = load_workbook('./material/10月考勤统计.xlsx')
ws = wb.active
# 创建迟到人员字典
info_dict = {}
# 循环读取除表头外的表格数据
for row in ws.iter_rows(min_row=2, values_only=True):
# 取出员工工号
staff_id = row[0]
# 取出迟到次数
staff_late = row[-1]
# 将信息添加入字典,字典格式为{'员工工号': '迟到次数'}
info_dict[staff_id] = staff_late
# 打开工作簿【迟到次数月度统计(10月更新).xlsx】,获取活动工作表
monthly_wb = load_workbook('./material/迟到次数月度统计(10月更新).xlsx')
monthly_ws = monthly_wb.active
# 循环读取出表头外的表格数据
for monthly_row in monthly_ws.iter_rows(min_row=3, max_col=13, values_only=True):
# 取出员工工号
member_id = monthly_row[0]
# 取出十一月份的迟到次数
member_late = monthly_row[-1]
# 匹配迟到次数是否相等
if member_late != info_dict[member_id]:
print('工号{}迟到情况不匹配,请核查后更新'.format(member_id))
运行结果:
为什么会选择存储到字典中呢?
因为字典可以很好地体现出工号与迟到次数的对应关系,即{'工号': '迟到次数'}
。
然后把【迟到次数月度统计(10月更新).xlsx】中的迟到次数,与字典中存储的迟到次数进行匹配,再判断相同工号对应的迟到次数是否相同。
来源:https://blog.csdn.net/mez_Blog/article/details/122759563


猜你喜欢
- 我就废话不多说了,大家还是直接看代码吧!import tensorflow as tfimport numpy as npinput = t
- 本文主要介绍了Vue动态修改title的方法,需要的朋友可以参考学习,方法如下:1.通过自定义指令去修改(单个修改比较好)//1.在main
- IE历来被web标准的拥护者所诟病,而当FireFox横空出世以后,更多的网页制作者开始关注web标准设计。看着FireFox的市场占有率不
- 方法一一般情况下,SQL数据库的收缩并不能很大程度上减小数据库大小,其主要作用是收缩日志大小,应当定期进行此操作以免数据库日志过大1、设置数
- 页面跳转页面跳转的url中必须在最后会自动添加【\】,所以在urls.py的路由表中需要对应添加【\】from django.shortcu
- 先来看个例子:#-*- coding:utf8 -*-s = u'中文截取's.decode('utf8')
- 是的,这仅仅是一个PPT文档,由Anna Debenham上传至slideshare。幻灯片的标题叫做《CSS nuggets》,嗯,很好的
- 1.元组的概念Python中的元组和列表很相似,元组也是Python语言提供的内置数据结构之一,可以在代码中直接使用。元组和列表就像是一个孪
- 学完了Python脚本接口自动化之后,一直没有对该框架做总结,今天终于试着来做一份总结了。框架结构如下图:来说一下每个目录的作用:Confi
- 目录用Python写一个简单的通讯录一、构思1、定义空列表和一个空字典来存储2、定义功能选项3、添加通讯录功能4、 循环,调用所有的函数功能
- 问题怎样实现一个按优先级排序的队列? 并且在这个队列上面每次 pop 操作总是返回优先级最高的那个元素解决方案下面的类利用 heapq 模块
- 函数作用:该函数的作用即按字面意思理解,topk:取数组的前k个元素进行排序。通常该函数返回2个值,第一个值为排序的数组,第二个值为该数组中
- Python 中方法的缺省参数问题在Python中可以缺省给方法制定缺省值,但是这个缺省值在某些情况下确是和我们预期不太一致的&he
- 题目:获得输入正整数 N,反转输出该正整数,不考虑异常情况。
- Json To Dictimport jsonjsonData = '{"a":1,"b":
- 本文为大家分享了MySql安装与卸载的教程,供大家参考,具体内容如下一、MYSQL的安装1、打开下载的mysql安装文件,双击运行mysql
- 本文实例讲述了php设计模式之适配器模式。分享给大家供大家参考,具体如下:星际的很多兵种,都有至少一项特殊技能。而且有些兵种的技能是相同的,
- 学习前言……又看了很久的SSD算法,今天讲解一下训练部分的代码。预测部分的代码可以参照https
- Turtle库是Python语言中一个很流行的绘制图像的函数库,想象一个小乌龟,在一个横轴为x、纵轴为y的坐标系原点,(0,0)
- 代码如下:url="http://www.cidianwang.com/" wstr=getHTTPPage(