使用 Python 处理3万多条数据只要几秒钟
作者:数据森麟 发布时间:2023-08-03 15:21:06
应用场景:工作中经常遇到大量的数据需要整合、去重、按照特定格式导出等情况。如果用 Excel 操作,不仅费时费力,还不准确,有么有更高效的解决方案呢?
本文以17个 txt 文本,3万多条数据为例,使用 Python 连接 MySQL 数据库,实现快速操作。
别人加班干的活,我的 Python 小助手几秒钟就搞定了!
本文主要包括以下三方面内容:
数据写入
数据去重
数据导出
将数据写入 MySQL 数据库
下图所示文件是本文的数据源:
我们的设想是:编写一个小程序,扔在这个文件夹里,双击后就可以自动读取每个 txt 文档中的数据,并写入数据库。
代码如下:
import pymysql
import os
conn = pymysql.connect(host='localhost', user='root', password='123456', db='qq', charset='utf8')
cur = conn.cursor()
cur.execute("CREATE TABLE qq ( id int(5) NOT NULL auto_increment, qq varchar(20)NOT NULL, PRIMARY KEY (id));")
conn.commit()
path = os.getcwd()
files = os.listdir(path)
i = 0
for file in files:
f = open(file,'r',encoding = 'UTF-8')
next(f)
for line in f:
i += 1
#print(line)
sql = "insert into qq(qq) values(%s);"
cur.execute(sql,line)
print("插入第", i, "条数据!")
conn.commit()
f.close()
cur.close()
conn.close()
运行效果:
重点代码解释:
这段代码用到了 pymysql 和 os 两个库。
pymysql:用来操作 MySQL 数据库;
os:用来遍历所在文件夹下的所有文件。
现将主要代码解释如下:
1、遍历任意文件夹下所有文件名称
程序写好后,使用 pyinstaller 打包成 exe 程序,并放在要操作的文件夹下面。
通过 path = os.getcwd() 命令,获取该 exe 文件所在目录。
通过 files = os.listdir(path) 命令,获取 exe 文件所在目录下的所有文件名称,并存入 files 列表中。
这样我们就获得了所有的 txt 文件名称,你可以任意命名你的 txt 文件名,程序都能读出来。
2、将数据写入数据库
(1)连接数据库,并在数据库中创建新表
A. 连接到我的 qq 数据库
conn = pymysql.connect(host='localhost', user='root', password='123456', db='qq', charset='utf8')
B. 创建新表 qq
在 qq 数据库中创建新表,表名称为 qq ,包含 2 个字段:id 字段为主键、自动递增;qq 字段为字符型,用于存储数据。
cur.execute("CREATE TABLE qq ( id int(5) NOT NULL auto_increment, qq varchar(20)NOT NULL, PRIMARY KEY (id))")
(2)将数据写入数据库
这里使用了两层循环:
for file in files:
f = open(file,'r',encoding = 'UTF-8')
next(f)
for line in f:
i += 1
#print(line)
sql = "insert into qq(qq) values(%s);"
cur.execute(sql,line)
print("插入第", i, "条数据!")
conn.commit()
f.close()
第一层循环是用来依次打开上述 17 个 txt 文件。
第二层循环是依次读取每个 txt 文件的每一行,并将改行数据插入数据库表 qq 的 qq字段。
至此就完成了数据的导入,总共32073条数据。
数据清洗
这里以去除重复值为例,简单介绍一下数据清洗。
1、创建一个新表,用来存储清洗后的数据
可以在 cmd 窗口下登陆 MySQL,打开 qq 数据库,执行下列操作:
CREATE TABLE qq_dist ( id int(5) NOT NULL auto_increment, qq varchar(20)NOT NULL, PRIMARY KEY (id));
这样就创建了新表 qq_dist ,用来存储清洗后的数据,便于后期调用。
2、清洗数据
登陆 MySQL 后,执行下列操作:
insert into qq_dis(qq) select distinct qq from qq;
将从 qq 表中查找出的不重复的 qq 字段内容,插入到 qq_dist 表中的 qq 字段。
将数据按照特定格式导出
案例:将清洗后的数据的第101-200行导出到新的 txt 文本中。
代码如下:
import pymysql
conn = pymysql.connect(host='localhost', user='root', password='123456', db='wxid', charset='utf8')
print("写入中,请等待……")
cur = conn.cursor()
sql = "select wxid from wd_dis limit 100,100;"
cur.execute(sql)
conn.commit()
alldata = cur.fetchall()
f = open('data101-200.txt','a')
i = 0
for data in alldata:
i += 1
f.write(data[0])
f.flush()
f.close
cur.close()
conn.close()
print("写入完成,共写入{}条数据!".format(i))
重点代码解释:
1、 limit
MySQL 中 limit m,n 函数的含义是:从第 m+1 行开始读取 n 行。
所以,本案例中读取第101-200行,就是 limit 100,100
2、flush()
flush() 函数一定要加上,它可以将缓冲区的数据写入文件中。否则就会出现生成的 txt 文档为空白的错误。
总结
以上所述是小编给大家介绍的使用 Python 处理3万多条数据只要几秒钟,希望对大家有所帮助
来源:https://mp.weixin.qq.com/s
猜你喜欢
- 在asp.net 2.0中,很多情况下,使用gridview控件的话,甚至只需要拖拉控件,设置属性就可
- 增强的toggleClass()1.toggleClass也可以和addClass一样,用空格分隔多个class名称了。.toggleCla
- javascript作为一个动态语言,动态解析脚本的方法非常多,如万恶又万能的eval,低调的Function,IE独占的execScrip
- 测试需求 为了更好的测试你的ASP程序,你首先需要决定你的程序将来需要面对多大的压力。简单的说,压力或负载可以分解成以下数字:· 最低用户数
- oracle10g数据备份 1.用sql/plus developer,选中要备份的数据表,右击选择"Export data&qu
- Access数据库被损坏主要分为以下几种情况:1、严重损坏;2、轻度损坏;3、有些表被损坏或有些表的部分记录被损坏。下面就分情况介绍解决办法
- 第一次用Python写这种比较实用且好玩的东西,权当练手吧游戏说明:* P键控制“暂停/开始”* 方向键控制贪吃蛇的方向源代码如下:from
- oracle数据库的权限系统分为系统权限与对象权限。系统权限( database system privilege )可以让用户执行特定的命
- YUI Compressor 压缩 JavaScript 的内容包括:移除注释移除额外的空格细微优化标识符替换(Identifier Rep
- 一、问题引发思考前阵子与同事探讨一个小需求时又遇到了按钮表示“动作”和表示“状态”间矛盾问题。想想这个问题多年前已经开始讨论了,所以在此整理
- urllib3是一款Python 3的HTTP客户端。Python标准库提供了urllib。在Python 2中,另外提供了urllib2;
- 首先为什么会有axis这个概念?因为在numpy模块中,大多数处理的是矩阵或者多维数组,同时,对多维数组或者矩阵的操作有多种可能,为了帮助实
- 最近因工作需要,要学习PHP的基础编程,于是学习架设PHP工作环境。但按照教材上介绍的那样,安装了WMAP后,一直无法运行成功。后发现Apa
- 要想创建一个iterator,必须实现一个有__iter__()和__next__()方法的类,类要能够跟踪内部状态并且在没有元素返回的时候
- 1、Dreamweaver中的复制我在网页中复制的文字,粘贴到Dreamweaver中时,它总是带有原来网页的格式,请问如何只复制其中的文本
- 本文详细介绍了array_slice函数的详细用法以及一些常用的array_slice实例程序,分享给大家供大家参考。具体分析如下:arra
- 效果图:作用:将页面中的电话号码生成图片格式。<%Public Sub Com_CreatValidCode(pT
- 阅读上一章:Chapter 8 再谈清单Chapter 9 精简标签先前我们不断提到结构化内容能够把结构与设计细节分类并精简标签,该怎么做呢
- 什么是Css Hack?由于不同的浏览器,比如Internet Explorer 6,Internet Explorer 7,Mozilla
- 这个技巧将教你如何用css做出漂亮的文本按钮,有活力的按钮将节省你很多制作图片的时间,也能让你一天的工作中成为一个快乐的人,让我们一起看看效