利用Python pandas对Excel进行合并的方法示例
作者:爱panda的Sherman 发布时间:2022-07-31 13:39:41
标签:pandas,excel,合并
前言
在网上找了很多Python处理Excel的方法和代码,都不是很尽人意,所以自己综合网上各位大佬的方法,自己进行了优化,具体的代码如下。
博主也是新手一枚,代码肯定有很多需要优化的地方,欢迎各位大佬提出建议~
代码我自己已经用了一段时间,可以直接拿去用
主要功能
按行合并 ,即保留固定的表头(如前几行),实现多个Excel相同格式相同名字的表单按纵轴合并;
按列合并。 即保留固定的首列,实现多个Excel相同格式相同名字的表单按横轴合并;
表单集成 ,实现不同Excel中相同sheet的集成(即不汇总,仅集成到同一个新的Excel中)。此处的代码稍微改一下即可实现不同Excel中所有sheet的集成;
自动检测所需合并的sheet名称是否出现在所有的目标文件中,如果不是则予以提示 ;
sheet选择、表头选择、功能选择界面实现可视化;
合并后进行简单的缺省值处理、格式处理
解决MacOS系统下文件目录中出现.DS_Store隐藏文件导致程序出错的bug。
用到的库
pandas 、tkinter 、 pathlib、os 、 xlrd
代码
import pandas as pd
import tkinter as tk
from tkinter import filedialog
import pathlib
import os
import xlrd
# 选择文件夹对话框,窗 * 互,打开选择窗口
filedirectory = filedialog.askdirectory()
p1 = pathlib.Path(filedirectory) # 该部分主要为了获取目标路径下的文件名
print(p1)
bookname1 = os.listdir(p1) # 返回目标文件夹下的所有文件名
if ".DS_Store" in bookname1:
bookname1.remove('.DS_Store')
# 删除文件名里的.xlsx
bookname = []
for n in bookname1:
n1 = list(n) # 把字符变成列表
for i in range(5): # 因为去除的是.XSLX,5个字符,可以根据实际需要修改
n1.pop() # 依次删除最后一个元素
n2 = ''.join(n1) # 把列表变成字符
bookname.append(n2)
excles = p1.rglob('*.xlsx') # 类似于os.work,能够返回目标路径下的文件路径,并且可以添加条件
excelarr = []
for eachexcel in excles:
excelarr.append(eachexcel) # 创建目标路径下特定文件名的列表
# 建立一个交互窗口
windows = tk.Tk()
windows.title('请提供如下信息') # 设置文本框的标题
windows.geometry('1000x300') # 设置界面的大小
# tk.Label(windows, text='你好!this is Tkinter', bg='green', font=('Arial', 12), width=30, height=2)
# 说明:bg为背景,font为字体,width为长,height为高,这里的长和高是字符的长和高,比如height=2,就是标签有2个字符这么高)
tk.Label(windows, text='请输入想要合并的sheet名称:').grid(row=0, column=0) # label用来显示不可编辑的文本和图标(提示性文字)
tk.Label(windows, text='请输入想要确定的表头行数:').grid(row=1, column=0)
tk.Label(windows, text='请输入您想实现的功能,1为按行合并sheet,2为按列合并sheet,3为sheet汇总:').grid(row=2, column=0)
# Listbox(dict={}) # 创建可选下拉框
e1 = tk.Entry(windows) # 创建输入框
e2 = tk.Entry(windows) # 创建第2个输入框
e3 = tk.Entry(windows)
e1.grid(row=0, column=1, padx=10, pady=5)
e2.grid(row=1, column=1, padx=10, pady=5)
e3.grid(row=2, column=1, padx=10, pady=5)
tk.Button(windows, text='点击继续', width=10, command=windows.quit) \
.grid(row=4, column=1, sticky=tk.E, padx=10, pady=5) # sticky表示方位,NSWE为上下左右
tk.mainloop() # 结束循环
# 为变量赋值
word = str(e1.get())
number = int(e2.get()) - 1
choice = int(e3.get())
# 检查想要处理的sheet是否在所有的目标文件中
file_list = os.listdir(p1)
file_list.remove('.DS_Store') # 移除Mac系统自动生成的文件
for file in file_list: # 循环遍历列出所有文件名称
file_name = os.path.join(p1, file) # 因os.listdir工具返回的是目标文件夹里文件的名字,然而打开文件需要文件路径+名字,故通过此工具获取完整的文件名
workbook = xlrd.open_workbook(file_name) # 打开遍历的文件
if word in workbook.sheet_names():
continue
else:
print(str(file) + '中不存在想要合并的sheet')
if choice == 2:
p1 = pd.ExcelFile(excelarr[0]) # 读取获取到的第一个文件名对应的文件
mergedata1 = p1.parse(header=number, sheet_name=word).iloc[:, 0] # 设置索引为第一行,如果为index_col,则索引为第一列 iloc为取特定的列
p2 = []
for i in range(0, len(excelarr)):
tmp = pd.ExcelFile(excelarr[i]) # 读取文件
currentdata = tmp.parse(header=number, sheet_name=word).iloc[:, [1, 2, 3, 4]] # 读取特定的列
mergedata1 = pd.concat([mergedata1, currentdata], axis=1) # concat连接函数,唯一必须的参数是参与连接的对象的列表或字典。axis=1,表示可以按照纵轴来合并
n = currentdata.shape[1] # 返回Dataframe的行数,1为返回列数
p2.append(n) # 获取读取文件的行数列表
name_list = []
i = 0
# 获取应插入的文件名的列表
for a1 in bookname:
for x in range(p2[i]):
name_list.append(a1)
i = i + 1
name_list.insert(0, '来自表格')
mergedata1.loc[-1] = name_list # 按行插入
if choice == 1:
p1 = pd.ExcelFile(excelarr[0]) # 读取获取到的第一个文件名对应的文件
mergedata1 = p1.parse(header=number, sheet_name=word) # 设置索引为第一行,如果为index_col,则索引为第一列
p2 = []
p2.append(mergedata1.shape[0])
for i in range(1, len(excelarr)):
tmp = pd.ExcelFile(excelarr[i]) # 读取文件
currentdata = tmp.parse(header=number, sheet_name=word) # 读取特定的表
mergedata1 = pd.concat([mergedata1, currentdata]) # concat连接函数,唯一必须的参数是参与连接的对象的列表或字典。axis=1,表示可以按照纵轴来合并
n = currentdata.shape[0] # 返回Dataframe的行数,1为返回列数
p2.append(n) # 获取读取文件的行数列表
name_list = []
i = 0
# 获取应插入的文件名的列表
for a1 in bookname:
for x in range(p2[i]):
name_list.append(a1)
i = i + 1
mergedata1.insert(0, '来自表格', name_list) # 插入第一列,作为表格数据来源的注释
if choice == 3:
i = 0
fname = tk.filedialog.asksaveasfilename(title=u'保存文件', filetypes=[("excel", ".xlsx")])
# fideialog的一个方法,可以实现数据储存是要保存的名字
writerExcel = pd.ExcelWriter(fname+'.xlsx') # 写入到一个新的Excel,并且命名为上一步骤确认的名字
for name in bookname:
p1 = pd.ExcelFile(excelarr[i])
mergedata1 = p1.parse(header=number, sheet_name=word) # 设置索引为第一行,如果为index_col,则索引为第一列
# mergedata1.dropna(thresh=4, inplace=True) # 必须使用inplace才可以使数据库记住删除的单元格
# mergedata1.dropna(axis='columns', how='all') # 删除全是缺失值的列
mergedata1.fillna('0') # 将所有缺失值填充为0
mergedata1.to_excel(writerExcel, sheet_name=name, index=False) # 新建一个sheet储存信息
i = i + 1
if choice != 3:
# 数据清理
mergedata1.dropna(thresh=4, inplace=True) # 必须使用inplace才可以使数据库记住删除的单元格
mergedata1.dropna(axis='columns', how='all') # 删除全是缺失值的列
mergedata1.fillna('0') # 将所有缺失值填充为0
# 保存至excel
fname = tk.filedialog.asksaveasfilename(title=u'保存文件',
filetypes=[("excel", ".xlsx")]) # fideialog的一个方法,可以实现数据储存是要保存的名字
writerExcel = pd.ExcelWriter(fname + '.xlsx') # 写入到一个新的Excel,并且命名为上一步骤确认的名字
mergedata1.to_excel(writerExcel, sheet_name='汇总表', index=False) # 将之前汇总的farmdate数据通过to excel写入到Excel中
# 设置格式
sheetname = writerExcel.sheets
workbook = writerExcel.book
for sheets in sheetname:
worksheet = writerExcel.sheets[sheets]
format1 = workbook.add_format({'num_format': '###,##0.00', })
# 通过xlsxwriter模块命名format1的格式,对于数字内容,每三位进行一个分隔符,并且保留两位小数。#.00%为保留两位小数的百分数.border为边框。最后为文本换行和居中
# format2 = workbook.add_format({'bold': True, 'italic': True}) # 加粗、斜体
worksheet.set_column('A:ZZ', 16, format1) # 将上述定义的格式应用到具体的单元格
# worksheet.set_row(0, 16, format2) # 将特定格式用于表头
writerExcel.save() # 保存Excel
print('success')
来源:https://blog.csdn.net/weixin_45923089/article/details/109459650


猜你喜欢
- Join 连接 (SQL Join)SQL Join (连接) 是利用不同数据表之间字段的关连性来结合多数据表
- What's more important to your web site: pictures or text? If you h
- HTML中使背景图片自适应浏览器大小实例详解解决办法:1、图片不够大,又background属性不能拉伸图片; 2、只能用个div,把其z-
- 代码如下:--程序员们在编写一个雇员报表,他们需要得到每个雇员当前及历史工资状态的信息, --以便生成报表。报表需要显示每个人的晋升日期和工
- 整理文档,搜刮出一个vue 计时器组件的代码,稍微整理精简一下做下分享。<template> <div>  
- use 数据库 go EXEC sp_changeobjectowner ‘原表的所有者.表名',现在的所有者例如: exec sp
- 虽然大多数web文档的顶部都有doctype声明,但很多人都没有注意它。它是在你新建一个文档时,由web创作软件草率处理的众多细节之一。虽然
- 将Copy of ********.bmp或者Copy of Copy of ********.bmp 此类文件统一命名为********0
- 本文实例讲述了GO语言常用的文件读取方式。分享给大家供大家参考。具体分析如下:Golang 的文件读取方法很多,刚上手时不知道怎么选择,所以
- Python最大的优点之一就是语法简洁,好的代码就像伪代码一样,干净、整洁、一目了然。要写出 Pythonic(优雅的、地道的、整洁的)代码
- 实现思路是先获取到当前最上面活动的窗口信息,然后提取该窗口的名称信息。之后获取窗口的坐标信息,即左上角的开始坐标及右下角的结束坐标。最后直接
- 第一章 介绍 脚本语言是类似DOS批处理、UNIX shell程序的语言。脚本语言不需要每次编译再执行,并且在执行中可以
- 在Python中是没有Switch / Case语句的,很多人认为这种语句不够优雅灵活,在Python中用字典来处理多条件匹配问题字典会更简
- 第1章 argparse简介1.1 解析argparse 模块是 Python 内置的一个用于命令项选项与参数解析的模块
- 排序排序是指以特定格式排列数据。排序算法指定以特定顺序排列数据的方式。最常见的顺序是数字或字典顺序。在 Numpy 中,我们可以使用库中提供
- 本文实例讲述了Python实现通过解析域名获取ip地址的方法。分享给大家供大家参考,具体如下:从网上查找的一些资料,特此做个笔记案例1:de
- 本文实例为大家分享了python名片管理系统的开发代码,供大家参考,具体内容如下利用面向对象的开发方法,开发名片管理系统,要求用文件存储数据
- 演示:<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//
- 在工作中,有时会遇见需要将数字转换为条码的问题,每次都需要打开条码转换的网站,一次次的转换后截图,一两个还行,但是当需要转换的数量较多时,就
- 目录一、数据库瓶颈二、分库分表2、水平分表3、垂直分库4、垂直分表三、分库分表工具四、分库分表步骤五、分库分表问题1、非partition