Python办公自动化批量处理文件实现示例
作者:早起python 发布时间:2021-01-12 01:11:24
引言
要说在工作中最让人头疼的就是用同样的方式处理一堆文件夹中文件,这并不难,但就是繁。所以在遇到机械式的操作时一定要记得使用Python来合理偷懒!今天我将以处理微博热搜数据来示例如何使用Python批量处理文件夹中的文件,主要将涉及:
Python批量读取不同文件夹(⭐⭐⭐)
Pandas数据处理(⭐⭐)
Python操作Markdown文件(⭐)
需求分析
首先来说明一下需要完成的任务,下面是我们的文件夹结构
因为微博历史热搜是没有办法去爬的,所以只能写一个爬虫每天定时爬取热搜并保存,所以在我当时分析数据时使用的就是上图展示的数据,每天的数据以套娃形式被保存在 * 目录下,并且热搜是以markdown文件存储的,打开是这样👇
而我要做的就是将这三个月的微博热搜数据处理成这样👇
这困难吗,手动的话无非是依次点三下进入每天的数据文件夹再打开md文件手动复制粘贴进Excel,不就几万条数据,大不了一天不吃饭也能搞定!现在我们来看看如何用Python光速处理。
Python实现
在操作之前我们来思考一下如何使用Python实现,其实和手动的过程类似:先读取全部文件,再对每一天的数据处理、保存。所以第一步就是将我们需要的全部文件路径提取出来,首先导入相关库
import pandas as pd
import os
import glob
from pathlib import Path
读取全部文件名的方法有很多比如使用OS模块
但是由于我们是多层文件夹,使用OS模块只能一层一层读取,要写多个循环从而效率不高,所以我们告别os.path
使用Pathlib来操作,三行代码就能搞定,看注释
from pathlib import Path
p = Path("/Users/liuhuanshuo/Desktop/热搜数据/") #初始化构造Path对象
FileList=list(p.glob("**/*.md")) #得到所有的markdown文件`</pre>
来看下结果
成功读取了热搜数据下多层文件夹中的全部md文件!但是新的问题来了,每天有两条热搜汇总,一个11点一个23点,考虑到会有重合数据所以我们在处理之前先进行去重,而这就简单了,不管使用正则表达式还是按照奇偶位置提取都行,这里我是用lambda表达式一行代码搞定
filelist = list(filter(lambda x: str(x).find("23点") >= 0, FileList))
现在我们每天就只剩下23点的热搜数据,虽然是markdown文件,但是Python依旧能够轻松处理,我们打开其中一个来看看
打开方式和其他文件类似使用with语句,返回一个list,但是这个list并不能直接为我们所用,第一个元素包含时间,后面每天的热搜和热度也不是直接存储,含有markdown语法中的一些没用的符号和换行符,而清洗这些数据就是常规操作了,使用下面的代码即可,主要就是使用正则表达式,看注释
with open(file) as f:
lines = f.readlines()
lines = [i.strip() for i in lines] #去除空字符
data = list(filter(None, lines))
del data[0]
data = data[0:100]
date = re.findall('年(.+)2',str(file))[0]
content = data[::2] #奇偶分割
rank = data[1::2]
#提取内容与排名
for i in range(len(content)):
content[i] = re.findall('、(.+)',content[i])[0]
for i in range(len(rank)):
rank[i] = re.findall(' (.+)',rank[i])[0]`
最后只需要写一个循环遍历每一天的文件并进行清洗,再创建一个DataFrame用于存储每天的数据即可
可以看到,并没有使用太复杂的代码就成功实现了我们的需求!
结束语
源码地址
来源:http://166z.cn/86jE
猜你喜欢
- 举例如下:<HTML> <HEAD>  
- 继承是面向对象编程的一个重要的方式,通过继承,子类就可以扩展父类的功能。在python中一个类能继承自不止一个父类,这叫做python的多重
- Notes怀疑模型梯度 * ,想打印模型 loss 对各权重的导数看看。如果如果fit来训练的话,可以用keras.callbacks.Ten
- flask-login 模块简介Flask-Login 是一个 Flask 模块,可以为 Flask 应用程序提供用户登录功能。要在 Fla
- 有很多程序运行时间比较长,如果不将运行过程输出将很难判断程序运行的时间。下边这段程序将按照上图所示的格式输出程序运行进程、已用时间、剩余时间
- 地图服务是指可以提供数据信息的接口,比如说本地搜索/路线规划等,下面小编给大家整理下百度地图API之本地搜索和范围搜索,具体请看下文。地图服
- 1、引言小丝:鱼哥,还记得上次写的把数据库的查询结果写入到excel这个脚本不。小鱼:嗯… 可以说不记得吗小丝:我猜你
- 序言那个猥琐的家伙整天把个U盘藏着当宝,到睡觉了就拿出来插到电脑上。我决定想个办法看他U盘里都藏了什么,直接去抢U盘是不可能的,骗也是不可能
- 在实现鼠标停在某元素上,会出现提示信息,以前我们太多是采用javascript脚本代码来实现。看了怿飞的IE中伪类:hover的使用及BUG
- 在本项目中,将会用Keras来搭建一个稍微复杂的CNN模型来破解以上的验证码。验证码如下: 利用Keras可以快速方便地搭建CNN
- 一、低配logging日志总共分为以下五个级别,这个五个级别自下而上进行匹配 debug-->info-->warning--&
- 背景在校园里认证上网很麻烦需要web输入账号密码有时还会忘记web地址此时就需要一个人或者程序帮我们实现,这时我想到用python制作这个程
- python模拟登陆网页主要使用到urllib、urllib2、cookielib及BeautifulSoup等基本模块,当然进阶阶段我们还
- 在用户登录windows操作系统的时候,如果触发到了登录表单的密码录入框上,并且此时按下了“大写锁定键(Caps Lock)”,那么界面上会
- 〝 古人学问遗无力,少壮功夫老始成 〞python之tkinter库弹窗messagebox,常码字不易,出精品更难,没有特别幸运,那么请先
- 前言:一个用python写的简单的端口扫描器,python环境为 3.7.0,windows系统Socket模块编写扫描给定主机是否开放了指
- 1、XML 是什么?XML仅仅是一种数据存放格式,这种格式是一种文本(虽然XML规范中也提供了存放二进制数据的解决方案)。事实上有很多文本格
- 如下所示:# 选取等于某些值的行记录 用 == df.loc[df['column_name'] == some_value
- 编写函数装饰器本节主要介绍编写函数装饰器的相关内容。跟踪调用如下代码定义并应用一个函数装饰器,来统计对装饰的函数的调用次数,并且针对每一次调
- 正在看的ORACLE教程是:ORACLE8的分区管理。摘要:本篇文章介绍了ORACLE数据库的新特性—分区管理,并用例子说明使用方法。 关键