分步骤教你用python一步步提取PPT中的图片
作者:ZackSock 发布时间:2023-07-01 19:58:22
标签:python,提取,PPT,图片
一、实现原理
其实实现原理很简单,我们的pptx文件其实是一个压缩包。我们可以直接修改pptx文件的后缀,改成zip然后解压,比如下面这个:
这是解压后的文件。我们可以在ppt目录下找到一个media目录,这个目录下就是我们要的图片的。这个目录包含了PPT的所有多媒体文件。
知道这点后,我们就可以选择用Python来解压出PPT中的media目录就可以提取出所有图片了。
二、提取PPT中的图片
1、打开压缩包
在Python中提供了一个zipfile模块用于处理压缩包文件。我们来看看它的简单操作:
from zipfile import ZipFile
# 打开压缩文件
f = ZipFile("test.pptx")
# 查看压缩包所有文件
for file in f.namelist():
print(file)
# 关闭压缩包文件
f.close()
输出的部分结果如下:
[Content_Types].xml
_rels/.rels
ppt/presentation.xml
ppt/slides/_rels/slide2.xml.rels
ppt/slides/slide1.xml
ppt/slides/slide2.xml
ppt/slides/slide3.xml
可以看到我们打印出了压缩包的文件。
2、解压文件
我们还可以通过下面的方式打开压缩包:
from zipfile import ZipFile
with ZipFile("test.pptx") as f:
for file in f.namelist():
print(file)
通过with
语句,就可以不显示地调用close方法。下面我们看看解压操作:
from zipfile import ZipFile
with ZipFile("test.pptx") as f:
for file in f.namelist():
# 解压文件
f.extract(file, path="unzip")
解压文件的操作通过f.extract
来实现,这里传入了两个参数,分别是压缩包文件,和解压路径,如果压缩包有密码还需要传入解压密码。
然后我们还需要判断一下,如果是媒体目录我们才解压。我们添加一点代码:
from zipfile import ZipFile
with ZipFile("test.pptx") as f:
for file in f.namelist():
# 如果是media目录下的文件就解压
if file.startswith("ppt/media/"):
f.extract(file, path="unzip")
这样我们就实现了PPT图片的提取。
三、提取PPT中的图片
我们把上面代码再完善一下:
import os
from zipfile import ZipFile
# 解压目录
unzip_path = "unzip"
# 如果解压目录不存在则创建
if not os.path.exists(unzip_path):
os.mkdir(unzip_path)
with ZipFile("test1/test.pptx") as f:
for file in f.namelist():
if file.startswith("ppt/media/"):
f.extract(file, path=unzip_path)
这里我们就是添加了一个解压目录的创建,这样我们执行的时候就不会因为目录不存在而报错了。
另外,其实我们手动解压然后提取PPT中的图片也是很方便的,也并不会比程序慢。
来源:https://blog.csdn.net/ZackSock/article/details/120539753


猜你喜欢
- 一、前言这篇文章我们将讲解如何将ASP.NET Core 程序部署到Linux。这里我们使用的是虚拟机里面安装的Centos7。这里的ASP
- 内容摘要:本文介绍了使用CSS结合javascript来实现对超链接的类型进行标注,让浏览者明确是zip,doc,pdf或其它格式的文件。这
- 以下就是php动态生成函数示例,示例中用到了eval函数,我感觉如果服务器上允许用户运行这样的函数是非常危险的<?$a['a&
- 本文总结一下,拖拽所延伸出来的一些效果,供大家参考,具体内容如下1.实现拖拉图片时,带框的效果。即当鼠标拖动某一个图片或物体时,其原有位置扔
- 1.使用explain语句去查看分析结果 如explain select * from test1 where id=1;会出现:id se
- 和其他数据库系统类似,Oracle字符串连接使用“||”进行字符串拼接,其使用方式和MSSQLServer中的加号“+”一样。 比如执行下面
- 知乎上有人说,Python3.6以后字典有序且更高效了。群里有同学推荐了这篇文章给我看,并咨询字典排序的问题。大致浏览了一下,我当即表示不能
- 技术背景在一些对python开源库代码的安全扫描中,我们有可能需要分析库中所使用到的函数是否会对代码的执行环境造成一些非预期的影响。典型的例
- 异步过渡方案Generator在使用 Generator 前,首先知道 Generator 是什么。如果读者有 Python 开发经验,就会
- 一、安装pip install apscheduler二、ApScheduler 简介1 APScheduler的组件triggers:触发
- ARP欺骗又称ARP毒化或ARP攻击,是针对以太网地址解析协议ARP的一种攻击技术,通过欺骗局域网内访问者PC的网关MAC地址,使访问者PC
- 本文实例讲述了js显示世界时间的方法。分享给大家供大家参考,具体如下:<!DOCTYPE HTML PUBLIC "-//W
- 本文实例讲述了Go语言基础知识。分享给大家供大家参考,具体如下:GO文件目录结构该图是go-windows的目录结构如图,go的程序应该是在
- 使用Appium在移动端抓取微博数据Appium是移动端的自动化测试工具,读者可以类比为PC端的selenium。通过它,我们可以驱动App
- 本文实例讲述了JS与jQuery判断文本框还剩多少字符可以输入的方法。分享给大家供大家参考,具体如下:javascript部分:functi
- window.opener 的用法 window.opener 返回的是创建当前窗口的那个窗口的引用,比如点击了a.htm上的一
- 我确定有很多关于Unicode和Python的说明,但为了方便自己的理解使用,我还是打算再写一些关于它们的东西。 字节流 vs U
- 本文主要介绍了Python中list[::-1]的几种用法,分享给大家,具体如下:s = "abcde"list的[]中
- 1. 使用os.system("cmd")特点是执行的时候程序会打出cmd在Linux上执行的信息。import oso
- 高级特性切片操作:对list,tuple元素进行截取操作,非常简便。L[0:3],L[:3] 截取前3个元素。L[1:3] 从1开始截取2个