基于PyQt5制作Excel文件数据去重小工具
作者:Python 发布时间:2023-10-14 05:44:58
标签:Python,PyQt5,数据去重
需求说明:将单个或者多个Excel文件数据进行去重操作,去重的列可以通过自定义制定。
开始源码说明之前,先说明一下工具的使用过程。
1、准备需要去重的数据文件。
2、使用工具执行去重操作。
3、处理完成后的结果文件。
PyQt5 界面UI相关的模块引用
from PyQt5.QtWidgets import *
from PyQt5.QtGui import *
核心组件
from PyQt5.QtCore import *
主题样式模块引用
from QCandyUi import CandyWindow
在这个应用中使用一个默认的杨氏模块QCandyUi,可以改变整个应用的主题颜色设计不用一个控件一个控件的去修改样式。有一个不好的地方就是应用本身设置的标题和应用图标不能生效,必须利用这个样式控件CandyWindow来修改,就像下面这样需要将我们自己写的UI空间放到里面。
# w = CandyWindow.createWindow(EDataDel(), theme='blueGreen', title='Excel批数据去重器 公众号:[Python 集中营]',
# ico_path='数据去重.ico')
# w.show()
应用操作相关模块
import sys
import os
Excel数据处理模块
import pandas as pd
import openpyxl as pxl
UI界面布局设计、信号量槽函数绑定实现
class EDataDel(QWidget):
def __init__(self):
super(EDataDel, self).__init__()
self.init_ui()
def init_ui(self):
self.brower = QTextBrowser()
self.brower.setReadOnly(True)
self.brower.setFont(QFont('微软雅黑', 8))
self.brower.setPlaceholderText('处理进程展示区域...')
self.brower.ensureCursorVisible()
form = QFormLayout()
self.file_paths = QLineEdit()
self.file_paths.setReadOnly(True)
self.file_paths_btn = QPushButton()
self.file_paths_btn.setText('加载批文件')
self.file_paths_btn.clicked.connect(self.file_paths_btn_click)
self.colums_label = QLabel()
self.colums_label.setText('自定义去重复列')
self.colums_text = QLineEdit()
self.colums_text.setPlaceholderText('列名1,列名2,列名3,...')
form.addRow(self.file_paths, self.file_paths_btn)
form.addRow(self.colums_label, self.colums_text)
self.work = DataWork(self)
self.work.trigger.connect(self.update_log)
self.work.finished.connect(self.finished)
vbox = QVBoxLayout()
self.start_btn = QPushButton()
self.start_btn.setText('开始执行')
self.start_btn.clicked.connect(self.start_btn_click)
vbox.addLayout(form)
vbox.addWidget(self.start_btn)
hbox = QHBoxLayout()
hbox.addWidget(self.brower)
hbox.addLayout(vbox)
self.setLayout(hbox)
def file_paths_btn_click(self):
paths = QFileDialog.getOpenFileNames(self, '选择文件', os.getcwd(), 'Excel Files(*.xlsx)')
files = paths[0]
path_strs = ''
for file in files:
path_strs = path_strs + file + ';'
self.file_paths.setText(path_strs)
if self.file_paths.text().strip() != '':
self.update_log('已经完成批文件路径加载!')
else:
self.update_log('没有选择任何文件!')
def save_dir_btn_click(self):
directory = QFileDialog.getExistingDirectory(self, '选择文件夹', os.getcwd())
self.save_dir.setText(directory)
def update_log(self, text):
cursor = self.brower.textCursor()
cursor.movePosition(QTextCursor.End)
self.brower.append(text)
self.brower.setTextCursor(cursor)
self.brower.ensureCursorVisible()
def start_btn_click(self):
self.start_btn.setEnabled(False)
self.work.start()
def finished(self, finished):
if finished is True:
self.start_btn.setEnabled(True)
创建子线程,处理业务逻辑(清理Excel重复文件)
class DataWork(QThread):
trigger = pyqtSignal(str)
finished = pyqtSignal(bool)
def __init__(self, parent=None):
super(DataWork, self).__init__(parent)
self.parent = parent
self.working = True
def __del__(self):
self.working = False
self.wait()
def run(self):
self.trigger.emit('启动批量处理子线程...')
file_paths = self.parent.file_paths.text().strip()
colums_text = self.parent.colums_text.text().strip()
colums = []
if ',' in colums_text:
colums = colums_text.split(',')
else:
colums.append(colums_text)
self.trigger.emit('获取配置项完成!')
for file in file_paths.split(';'):
if file.strip() != '':
web_sheet = pxl.load_workbook(file)
sheets = web_sheet.sheetnames
print(file)
new_file = file.split('.')[0] + '_已去重.' + file.split('.')[1]
print(new_file)
writer = pd.ExcelWriter(new_file)
for sheet in sheets:
sheet_name = sheet.title()
print(sheet_name)
self.trigger.emit('准备处理工作表名称:' + str(sheet.title()))
data_frame = pd.read_excel(file, sheet_name=sheet_name)
print(data_frame)
repe = data_frame.duplicated(subset=colums)
repe = repe[repe]
print(data_frame.iloc[repe.index])
res = data_frame.drop_duplicates(subset=colums)
print(res)
self.trigger.emit(str(sheet.title()) + ':已清除')
res.to_excel(writer, sheet_name, index=False)
writer.save()
else:
self.trigger.emit('当前文件路径为空,继续...')
self.trigger.emit('数据处理完成...')
self.finished.emit(True)
使用主函数启动整个应用
if __name__ == '__main__':
app = QApplication(sys.argv)
w = CandyWindow.createWindow(EDataDel(), theme='blueGreen', title='Excel批数据去重器 公众号:[Python 集中营]',
ico_path='数据去重.ico')
w.show()
sys.exit(app.exec_())
来源:https://www.cnblogs.com/lwsbc/p/16088873.html
0
投稿
猜你喜欢
- 1.怎么样查看数据库字符集 [A]数据库服务器字符集select * from nls_database_parameters,其来源于pr
- 在web运行中很重要的一个功能就是加载静态文件,在django中可能已经给我们设置好了,我们只要直接把模板文件放在templates就好了,
- 关于浅拷贝和深拷贝想必大家在学习中遇到很多次,这也是面试中常常被问到的问题,借由这个时间,整理一下浅拷贝和深拷贝的关系先从一个简单的例子入手
- 本文实例讲述了PHP实现的线索二叉树及二叉树遍历方法。分享给大家供大家参考,具体如下:<?php require '
- lambda函数是一种小的匿名函数。lambda语法lambda函数:lambda [arg1 [,arg2,...[,argn]]] :
- ASP错误大全 Microsoft VBScript语法错误(0x800A03E9)-->内存不足 Microsoft VBScript语法
- 在修改后的 《闲谈 Web 图片服务器》 一文中也提及了"IE 浏览器的连接数问题",这也是个有趣的话题。值得补充记录一
- 一、前言前文是针对普通的字符串数据进行处理。今天,我们要讲解的textwrap库,是对多文本进行处理的库。比如对于段落的缩进,填充,截取等,
- 从前有三只小猪,长大自立了分别造房子住。老大搬来草堆堆出草屋,老二搬来木头搭出木屋,老三搬来砖头,砌墙,造烟囱,造出了坚固的砖房。一天晚上大
- 1.效果图:2.代码# 作用域 是 对象生效的区域(对象能被使用的区域)# 全局作用域在任意位置可生效# 局部作用域在函数内生效c = 20
- Python heapq 详解Python有一个内置的模块,heapq标准的封装了最小堆的算法实现。下面看两个不错的应用。小顶堆
- 前言Python 有 while 语句和 for 语句作为循环处理。虽然 for 语句具有一定数量的进程,但 while 语句是『直到满足条
- 在ASP中Request对象是获取客户端提交数据的一个很重要的对象,大家对他也是非常熟悉了。 虽然如此,还是经常有人问我下面的几种写法有什么
- 导言GridView是由一组字段(Field)组成的,它们都指定的了来自DataSource中的什么属性需要用到自己的输出呈现中。最简单的字
- css可以处理16,777,216颜色,可以使用名字、rgb值或十六进制代码。red红色等同于 rgb(255,0,0) &nbs
- 无意中看到一位学员的屏保,感觉挺有意思的,就把它实现了下来效果如下:<!DOCTYPE html PUBLIC "-//W3
- 即使页面上只有一个元素它也是一个矩形的盒模型。其大小、位置、行为都可以通过CSS来控制。这里的行为是指当盒模型内部以及周围的内容发生变化时的
- ltp是哈工大出品的自然语言处理工具箱, pyltp是python下对ltp(c++)的封装.在linux下我们很容易的安装pyltp, 因
- 自动扫雷一般分为两种,一种是读取内存数据,而另一种是通过分析图片获得数据,并通过模拟鼠标操作,这里我用的是第二种方式。一、准备工作1.扫雷游
- python使用函数改变list函数内改变外部的一个list如果这么写def rotate(nums, k): l