python 三种方法提取pdf中的图片
作者:刘早起 发布时间:2023-09-18 08:25:58
有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用Python也可以轻松搞定!
今天就跟大家系统分享几种Python提取 PDF 图片的方法。其实没有非常完美的方法,每种方法提取效率都不是百分之百,因此可以考虑用多种方法进行互补,主要将涉及:
基于
fitz
库和正则搜索提取图片基于
pdf2image
库的两种方法提取图片
基于 fitz 库和正则搜索
fitz 是 pymupdf 的子模块,需要先用命令行安装 pymupdf:
pip install pymupdf
但注意导入时使用 import fitz
导入模块!
下面的代码就利用 fitz
库提取图片需要通过正则匹配图片元素,将模板元素转化为像素后再以图片形式写出
import fitz
import re
import os
file_path = r'C:\xxx\xxx.pdf' # PDF 文件路径
dir_path = r'C:\xxx' # 存放图片的文件夹
def pdf2image1(path, pic_path):
checkIM = r"/Subtype(?= */Image)"
pdf = fitz.open(path)
lenXREF = pdf._getXrefLength()
count = 1
for i in range(1, lenXREF):
text = pdf._getXrefString(i)
isImage = re.search(checkIM, text)
if not isImage:
continue
pix = fitz.Pixmap(pdf, i)
new_name = f"img_{count}.png"
pix.writePNG(os.path.join(pic_path, new_name))
count += 1
pix = None
pdf2image1(file_path, dir_path)
运行提取示例文件后结果如下:
可以看到,有一些很小的色块也被提取成图片,那么怎么过滤掉它们呢?
有一个简单的方法是通过大小过滤,pix 像素在 fitz 库中存在一个重要的方法 pix.size 可以反映像素多少,简单的色素块该值较低,可以通过设置一个阈值过滤。以阈值 10000 为例过滤:
import fitz
import re
import os
file_path = r'C:\xxx\xxx.pdf' # PDF 文件路径
dir_path = r'C:\xxx' # 存放图片的文件夹
def pdf2image1(path, pic_path):
checkIM = r"/Subtype(?= */Image)"
pdf = fitz.open(path)
lenXREF = pdf._getXrefLength()
count = 1
for i in range(1, lenXREF):
text = pdf._getXrefString(i)
isImage = re.search(checkIM, text)
if not isImage:
continue
pix = fitz.Pixmap(pdf, i)
if pix.size < 10000: # 在这里添加一处判断一个循环
continue # 不符合阈值则跳过至下
new_name = f"img_{count}.png"
pix.writePNG(os.path.join(pic_path, new_name))
count += 1
pix = None
pdf2image1(file_path, dir_path)
可以看到,全部图片都被正常提取!
基于 pdf2image 库的两种方法
一看名字就知道这个库的用处了,官方文档为https://www.cnpython.com/pypi/pdf2image
可以简单通过 pip install pdf2image
安装,但poppler才是真正起做用的转换器,因此需要额外安装和配置:
windows用户必须安装
poppler for Windows
,然后将bin/文件夹添加到PATHMac用户必须安装
poppler for Mac
具体发挥作用的代码官方文档也给出了详细的说明:
那么我们就分别尝试这两种方法:
from pdf2image import convert_from_path,convert_from_bytes
import tempfile
from pdf2image.exceptions import PDFInfoNotInstalledError, PDFPageCountError, PDFSyntaxError
import os
file_path = r'C:\xxx\xxx.pdf' # PDF 文件路径
dir_path = r'C:\xxx' # 存放图片的文件夹
def pdf2image2(file_path, dir_path):
images = convert_from_path(file_path, dpi=200)
for image in images:
if not os.path.exists(dir_path):
os.makedirs(dir_path)
image.save(file_path + f'\img_{images.index(image)}.png', 'PNG')
pdf2image2(file_path, dir_path)
可以成功提取图片。再试试第二种方法:
from pdf2image import convert_from_path,convert_from_bytes
import tempfile
from pdf2image.exceptions import PDFInfoNotInstalledError, PDFPageCountError, PDFSyntaxError
import os
file_path = r'C:\xxx\xxx.pdf' # PDF 文件路径
dir_path = r'C:\xxx' # 存放图片的文件夹
def pdf2image3(file_path, dir_path):
images = convert_from_bytes(open(file_path, 'rb').read())
for image in images:
if not os.path.exists(dir_path):
os.makedirs(dir_path)
image.save(file_path + f'\img_{images.index(image)}.png', 'PNG')
pdf2image3(file_path, dir_path)
可以看到结果和之前一致,PDF中全部图片都被提取出来!
再补充一下。核心方法covert_from_bytes
包含大量参数,可以自行修改。几个常用参数总结如下:
参数 | 意义 |
---|---|
pdf_path | PDF 文档路径 |
dpi | 图像质量(如果是学术期刊杂志常见 300dpi) |
output_folder | 将生成的图像写入文件夹(而不是直接写入内存) |
first_page | 起始转换页数 |
last_page | 转换至哪一页 |
fmt | 图像格式,可以指定为 png,默认为 ppm |
thread_count | 允许参与转换的线程数 |
userpw | PDF 的密码 |
output_file | 输出文件名 |
poppler_path | 指定 poppler 的安装路径,一开始配置好就无需指定 |
值得一提的是thread_count
参数,可以启动多线程会大大加快转换速度,尤其是 PDF 页面较多时。有兴趣的读者可以做尝试。
来源:https://cloud.tencent.com/developer/article/1785670
猜你喜欢
- 一、实例演示1.将一个大Excel等份拆成多个Excel2.将多个小Excel合并成一个大Excel并标记来源work_dir="
- 英文原文:http://www.456bereastreet.com/archive/200601/css_3_selectors_expl
- 在类中每次实例化一个对象都会生产一个字典来保存一个对象的所有的实例属性,这样非常的有用处,可以使我们任意的去设置新的属性。每次实例化一个对象
- 有多少次你在考虑怎样设置数据库时感到为难?其实,如果你在Linux上使用MySQL,就不会有这种情况了。在Linux上使用Webmin图形界
- w3c range range 用来表示用户的选择区域,这块选择区域由两个边界位置界定,而位置则由其容器以及偏移量构成,称作 contain
- 2008北京奥运会块到了,下面的js代码将告诉你,离奥运会开幕还要多少天!让我们一起迎接这美好的时刻。相关文章推荐:各种北京2008奥运会倒
- 学习Python过程中,发现没有switch-case,过去写C习惯用Switch/Case语句,官方文档说通过if-elif实现。所以不妨
- 代码如下:'===================================== '获取内容中所有图片 '==
- 1.多态是指传入不同的对象,产生不同的结果多态指的是一类事物有多种形态(一个抽象类有多个子类,因而多态的概念依赖于继承)定义:多态是一种使用
- 一、前言其实,在开发过程中,虽然我们没有直接使用到描述符,但是它在底层却无时不刻地被使用到,例如以下这些:function、bound me
- python如何修改索引和行列修改索引修改索引之前是自动生成的索引:使用set_index('以xx字段为索引',inpla
- 本文实例讲述了用python实现面向对像的ASP程序的方法。分享给大家供大家参考。具体实现方法如下:平时我们写ASP时,一般都用vbscri
- 本文讨论的是如果开发一个符合w3c标准的web站点,重点探讨在新的设计与开发模式下,web项目组中的美工/页面制作人员/后台程序员三者之间如
- nii.gz格式是医学图像常用的压缩格式,python中可用nibabel和sitk来读取保存。使用nibabel由于使用nibabel图像
- 用python实现21点小游戏,供大家参考,具体内容如下from random import shuffleimport randomimp
- 目录文件读写读文件写文件StringIO和BytesIOStringIOBytesIO操作文件和目录环境变量操作文件和目录文件读写读文件tr
- 对dataframe绘图并保存:ax = df.plot() fig = ax.get_figure()fig.savefig('f
- 简介:with是从Python2.5引入的一个新的语法,它是一种上下文管理协议,目的在于从流程图中把 try,except 和finally
- 内容概要:print() 是一个常用函数。那么,您是否注意过,print() 会在显示当前语句后换行。如果遇到需要连续显示、不换行的情况,比
- 问题:在论坛发表回复时出现“The table is full”的提示,字面意义上是数据表已满的意思。因为很少有开发者遭遇单一表超过4G的情