基于Python实现对比Exce的工具
作者:小管呀 发布时间:2022-12-04 17:44:44
标签:Python,对比,Excel
目的:设计一个应用GUI用于对比两个Excel文件
思路
1.参数
同一个excel文件两个sheet页其中一个ODS(老数据),一个DWH(新数据)
生成对比文件
设计两个主键 输入主键1 输入主键2
(默认新旧文件列名一致)
2.效果
生成的文件
数据量一样、取每个字段不一致的数据前10
数据量不一样、取两边不一样的数据前10、排除不一样的数据、每个字段不一致的数据前10
3.实现
循环对比组合列(主键+对比列)
pandas处理差异数据、openpyxl 处理生成的sheet的数据格式. (先生成数据,然后调整格式)
配置
import pandas as pd
from openpyxl import load_workbook
#选择文件路径
path=r"C:\Users\小管同学\Desktop\Migration_Data_Compari\对比文件.xls" #input("选择文件路径:")
TargetPath=r"C:\Users\小管同学\Desktop\Migration_Data_Comparison_Tool\目标文件\对比结果.xlsx"
DATA_ODS=pd.read_excel(r"C:\Users\小管同学\Desktop\Migration_Data_Comparison_Tool\对比文件.xls",sheet_name="ODS")
DATA_DWH=pd.read_excel(r"C:\Users\小管同学\Desktop\Migration_Data_Comparison_Tool\对比文件.xls",sheet_name="DWH")
#选择主键
Primarykey="员工编号"#input("选择主键1:")
Primarykey
# 员工编号
一、数据量
输出表格1–数据量
def write_to_excel_DataVolume(Data,TargetPath): # cor_df 为要保存的 dataframe
writer = pd.ExcelWriter(TargetPath, engine='xlsxwriter') # 这里用
Data.to_excel(writer,sheet_name='Sheet1', encoding='utf8', header=False, startcol=0, startrow=2) # 把dataframe的数据从第2行开始
workbook = writer.book
format1 = workbook.add_format({ # 先把样式打包,然后之后赋值即可
'bold': True, # 字体加粗
'text_wrap': True, # 是否自动换行
'valign': 'bottom', #垂直对齐方式
'align': 'center', # 水平对齐方式
'fg_color': '#C5D9F1', # 单元格背景颜色
'border': 1,# 边框
})
writer_sheet = writer.sheets['Sheet1']
# 设置宽度
writer_sheet.set_column("A:I", 16)
writer_sheet.set_column('C:C',30)
writer_sheet.merge_range(0,0,0,2,'对比结果',format1)
writer_sheet.merge_range(4,2,4,0,'数据量差异',format1)
writer_sheet.write(1,0,'',format1)
writer_sheet.write(1,1,'ODS',format1)
writer_sheet.write(1,2,'DWH',format1)
writer.save()
writer.close()
DataFrame_DataVolume=pd.DataFrame([[DATA_ODS.shape[0]],[DATA_DWH.shape[0]]]).T
DataFrame_DataVolume.columns =["ODS","DWH"]
DataFrame_DataVolume.index=["数据量"]
DataFrame_DataVolume
#writeFileDataVolume(DataFrame_DataVolume,TargetPath)
write_to_excel_DataVolume(DataFrame_DataVolume,TargetPath)
输出表格2–数据量差异合同
if DATA_ODS.shape[0]==DATA_DWH.shape[0]:
pass
else:
DATA_ODS_Primarykey=pd.DataFrame(DATA_ODS[Primarykey])
DATA_DWH_Primarykey=pd.DataFrame(DATA_DWH[Primarykey])
df_union = pd.concat([DATA_ODS_Primarykey,DATA_DWH_Primarykey])
# 实现1
df_diff_ODS = df_union.append(DATA_ODS_Primarykey).drop_duplicates(subset=df_union.columns.to_list(), keep=False)
df_diff_DWH = df_union.append(DATA_DWH_Primarykey).drop_duplicates(subset=df_union.columns.to_list(), keep=False)
#DWH多的合同
df_diff_ODS
#DWH少的合同
df_diff_DWH
df_diff_DWH_Data=[]
df_diff_ODS_Data=[]
for i in df_diff_ODS.head(10).values.tolist():
for n in i:
df_diff_ODS_Data.append(n)
for i in df_diff_DWH.head(10).values.tolist():
df_diff_DWH_Data.append(n)
while True:
if len(df_diff_DWH_Data)>len(df_diff_ODS_Data):
df_diff_ODS_Data.append("-")
elif len(df_diff_DWH_Data)< len(df_diff_ODS_Data):
df_diff_DWH_Data.append("-")
elif len(df_diff_DWH_Data)== len(df_diff_ODS_Data):
break
DataFrame_DataVolume_Count_result=pd.DataFrame(df_diff_DWH_Data,df_diff_ODS_Data).reset_index()
DataFrame_DataVolume_Count_result.columns=['DWH多的合同','DWH少的的合同']
DataFrame_DataVolume_Count_result=DataFrame_DataVolume_Count_result.reset_index()
DataFrame_DataVolume_Count_result.columns=['序号','DWH多的合同','DWH少的的合同']
DataFrame_DataVolume_Count_result
from openpyxl import load_workbook
def write_to_excel_Count_result(Data,TargetPath):
df_Old = pd.DataFrame(pd.read_excel(TargetPath)) #读取原数据文件和表
writer = pd.ExcelWriter(TargetPath,engine='openpyxl')
book=load_workbook(TargetPath)
writer.book = book
writer.sheets = dict((ws.title, ws) for ws in book.worksheets)
df_rows = df_Old.shape[0] #获取原数据的行数
Data.to_excel(writer,startrow=df_rows+1, index=False,startcol=0,header=True)#将数据写入excel中的aa表,从第一个空行开始写
writer.save()#保存
write_to_excel_Count_result(DataFrame_DataVolume_Count_result,TargetPath)
来源:https://blog.csdn.net/weixin_44553044/article/details/124003598


猜你喜欢
- 解析json数据并保存为csv文件首先导入两个包:import jsonimport pandas as pd打开json 文件并读取:wi
- 学习Django框架时,创建一个引擎及索引时报错,具体报错如下:执行命令:python3 manage.py rebuild_index报如
- 题目描述:(1)模拟登陆界面,判别用户名和密码,给出合适的提示,如果超过三次,锁定输入。用代替密码;或者最新输入显示,前面的变成;安全性措施
- 前言简单学习过网络爬虫,只是之前都是照着书上做并发,大概能理解,却还是无法自己用到自己项目中,这里自己研究实现一个网页嗅探HTML5播放控件
- 1.简介(torch.nn下的)卷积层主要使用的有3类,用于处理不同维度的数据参数 Parameters:in_channels(int)
- <?php//===============================时间日期=========================
- 文字比较难解释,直接看图应该就懂是要做什么了。需求工作中遇到的,需求就是超过四行得有个展开按钮,点击展开显示所有内容,不超过四行的话就不需要
- 报错信息最近闲来无事,用python的tkinter库开发了一款带日程提醒的万年历桌面程序。在程序开发结束开始打包时,却发现一直报错PyIn
- Docker用于开发Docker不仅用于部署,它还可以用于开发。1、为什么要在开发中使用Docker主要有以下几个原因。 1)一致的开发环境
- 在IE7还不支持counter 和increment 属性之前,我从来没有用过它们,也从来没有使用过:before 伪元素和content
- IF函数IF(expression ,expr_true, expr_false);MySQL的IF()函数,接受三个表达式,如果第一个表达
- 一.配置版本Java JDK 1.8.0_111Python 3.9.6Spark 3.1.2Hadoop 3.2.2二.配置环境 
- 当页面中引用template.js文件之后,脚本将创建一个TrimPath对象供你使用。 parseDO
- 前言 简述bs4:使用pip install beautifulsoup4将bs4包安装到当前的python解释器环境,使用fro
- 1.统一码(Unicode)Unicode也叫万国码、单一码,是计算机科学领域里的一项业界标准,包括字符集、编码方案等。对于世界上所有的语言
- 一、python魔法方法Python的魔法方法会在特定的情况下自动调用,且他们的方法名通常被双下划线包裹,之前我们学习的构造函数和析构函数就
- 刚好前些天有人提到eval()与exec()这两个函数,所以就翻了下Python的文档。这里就来简单说一下这两个函数以及与它们相关的几个函数
- 其实相信每个和mysql打过交道的程序员都应该会尝试去封装一套mysql的接口,这一次的封装已经记不清是我第几次了,但是每一次我希望都能做的
- 代码如下: EXEC sp_rename '表名.[原列名]', '新列名', 'column
- 我们可以通过mysql命令查看mysql的安装路径:# 以下两个sql任意一个可查询select @@basedir as basePath