一文教会你用Python读取PDF文件
作者:梦想橡皮擦 发布时间:2021-03-23 00:24:55
实战场景
Python 工程师在日常的工作中,经常会碰到解析和处理PDF文件的情况,实战中需求主要分为如下情况:
提取 PDF 中的文字
将 PDF 中每页转换为图片
word 转换为PDF
PDF生成,编辑,导入导出
PDF在线渲染
除了最后一项需要前端配合以外,其余内容都可以直接在 python 端进行实现。
本次实战选择 pdfplumber
库进行学习,可以提前安装该库,不过有一点需要注意,该库主要用于读取 PDF 进行操作,写入和编辑无法实现,即本文学习一款专注于 PDF 内容提取的库。
> pip install pdfplumber -i https://pypi.tuna.tsinghua.edu.cn/simple
pdfplumber
库具备如下特点:
可以访问PDF对象中的任意元素详细信息;
可以提取文本和表格,而且用法简单;
集成了可视化调试。
Python PDF 实战编码
下面可以编写 PDF 操作的基础代码。
import pdfplumber
with pdfplumber.open('./dddd.pdf') as pdf:
for page in pdf.pages:
print(page.extract_text())
# 每页打印一分页分隔
print('---------- 分页分隔 ----------')
导入 pdfplumber
模块之后,使用 pdfplumber.open('./dddd.pdf')
打开本地 pdf 文件,然后通过 pdf.pages
遍历所有页,在通过页对象的 .extract_text()
方法,提取文本信息。
pdfplumber.open() 方法的签名如下所示:
pdfplumber.open("文件名", password = "密码", laparams = { "line_overlap": 0.7 })
其中各参数描述如下:
file_name
:文件名,必选参数;password
:PDF的密码;laparams
:布局参数。
除此之外,如果希望读取 PDF,还可以使用 load()
方法,该方法也会返回 pdfplumber.PDF
类的实例。
pdfplumber.PDF
对象实例,主要有两个重要属性:
.metadata
:从PDF的Info中获取元数据键 /值对字典。 通常包括“ CreationDate”,“ ModDate”,“ Producer”等;.pages
:包含pdfplumber.Page
实例的列表,每一个实例代表PDF每一页的信息。
上文提及的 pdfplumber.Page
实例是 pdfplumber
的核心,后续对 PDF 的操作大量围绕该类的属性和方法实施,其重要属性如下所示:
page_number
:页码顺序,第一页的序号是 1;witdh
:宽度;height
:高度;.objects/.chars/.lines/.rects/.curves/.figures/.images
:获取PDF页中的重要数据。
核心方法如下所示:
extract_text()
:提取页中的文本;extract_words()
:提取所有单词及其相关信息;extract_tables()
: 提取页面的表格。
extract_text()
呈现结果
extract_words()
呈现结果
extract_tables()
呈现效果,由于 PDF 中无表格,所有每页得到的都是空!
补充
当然Python除了读取PDF文件,还有一些其他功能,例如加密PDF,旋转和叠加页面等,下面是实现的示例代码
旋转和叠加页面
import PyPDF2
from PyPDF2.pdf import PageObject
# 创建一个读PDF文件的Reader对象
reader = PyPDF2.PdfFileReader('resources/XGBoost.pdf')
# 创建一个写PDF文件的Writer对象
writer = PyPDF2.PdfFileWriter()
# 对PDF文件所有页进行循环遍历
for page_num in range(reader.numPages):
# 获取指定页码的Page对象
current_page = reader.getPage(page_num) # type: PageObject
if page_num % 2 == 0:
# 奇数页顺时针旋转90度
current_page.rotateClockwise(90)
else:
# 偶数页反时针旋转90度
current_page.rotateCounterClockwise(90)
writer.addPage(current_page)
# 最后添加一个空白页并旋转90度
page = writer.addBlankPage() # type: PageObject
page.rotateClockwise(90)
# 通过Writer对象的write方法将PDF写入文件
with open('resources/XGBoost-modified.pdf', 'wb') as file:
writer.write(file)
加密PDF文件
import PyPDF2
reader = PyPDF2.PdfFileReader('resources/XGBoost.pdf')
writer = PyPDF2.PdfFileWriter()
for page_num in range(reader.numPages):
writer.addPage(reader.getPage(page_num))
# 通过encrypt方法加密PDF文件,方法的参数就是rre
#设置的密码
writer.encrypt('foobared')
with open('resources/XGBoost-encrypted.pdf', 'wb') as file:
writer.write(file)
批量添加水印
import PyPDF2
from PyPDF2.pdf import PageObject
reader1 = PyPDF2.PdfFileReader('resources/XGBoost.pdf') reader2 = PyPDF2.PdfFileReader('resources/watermark.pdf')
writer = PyPDF2.PdfFileWriter()
# 获取水印页
watermark_page = reader2.getPage(0)
for page_num in range(reader1.numPages):
current_page = reader1.getPage(page_num) # type: PageObject current_page.mergePage(watermark_page)
# 将原始页和水印页进行合并
writer.addPage(current_page)
# 将PDF写入文件
with open('resources/XGBoost-watermarked.pdf', 'wb') as file:
writer.write(file)
来源:https://juejin.cn/post/7129692963273179149


猜你喜欢
- 前言在golang语言中,select语句 就是用来监听和channel有关的IO操作,当IO操作发生时,触发相应的case动作。有了 se
- 当两个数包含小数进行运算的时候结果并不是正确的结果,而是出现了精度丢失的情况(小数点后面出现很多位)。问题所在:res.orderColor
- 近来在做数据库设计,有时候真弄不清SQL2000里的数据类型,所以摘了这篇文章。 (1)char、varchar、text和nchar、nv
- 在本文中,我们将学习如何使用 OpenCV 为多个图像添加水印。1. 什么是水印?水印是有意叠加在不同图像上的标志、签名、文本或图案,用于保
- 因为神奇的中文有时也是会遇到国外同学都不知道原因导致一些神奇滴问题,所以要用更神奇的英文来解决问题。Mac OS的一些:华文细黑:STHei
- 写本篇文章之前其实也关注过vue中的一个关于加载动态组件is的API,最开始研究它只是用来实现一个tab切换的功能,使用起来也蛮不错的。is
- 本文实例为大家分享了python通过实例方法名字调用方法的具体代码,供大家参考,具体内容如下案例: &nb
- 虽然每个图像具有多个通道和多层卷积层。例如彩色图像具有标准的RGB通道来指示红、绿和蓝。但是到目前为止,我们仅展示了单个输入和单个输出通道的
- 今天学习php,当然是要先安装好运行环境了,phpstyudy是一个运行php的集成环境, 一键安装对新手很友好,与时作为一个新手,便跟着教
- 效果如下:代码如下:<!DOCTYPE html><html> <head> <meta char
- 目录一,利用 tensorboardX 可视化网络结构二,利用 vistom 可视化三,利用pytorchviz可视化网络结构一,利用 te
- Python是支持可视化编程,即编写gui程序,你可以用它来编写自己喜欢的桌面程序。使用wxPython来做界面非常的简单,只是不能像C#一
- 问题:关于如何生成随机记录(二)如何从指定表中随机抽取一定量的记录?sql server 中 select top 10 * fr
- 在pytorch训练过程中可以通过下面这一句代码来打印当前学习率print(net.optimizer.state_dict()['
- 本文为大家分享了mysql 8.0.15 安装配置图文教程,供大家参考,具体内容如下1.进官网,选择适合自己版本的linux下的MYSQL版
- 内容简介随着大数据时代到来,网络信息量也变得更多更大,基于传统搜索引擎的局限性,网络爬虫应运而生,本书从基本的爬虫原理开始讲解,通过介绍Pt
- dictPython内置了字典:dict的支持,dict全称dictionary,在其他语言中也称为map,使用键-值(key-value)
- 基本的字符串位置查找方法Python 查找字符串使用 变量.find("要查找的内容"[,开始位置,结束位置]),开始位
- 要使用摄像头,需要使用cv2.VideoCapture(0)创建VideoCapture对象,参数0指的是摄像头的编号,如果你电脑上有两个摄
- 一、SQL 连接(JOIN)1、笛卡尔积(1)当多张表进行连接查询,没有任何条件限制的时候,最终查询结果条数,是多张表条数的乘积如A表15条