20行Python代码实现一款永久免费PDF编辑工具
作者:程序员枸杞. 发布时间:2023-11-17 23:51:45
PDF是我们经常会接触到的一种文件格式,文献、文档...很多都是PDF格式。它以格式稳定的优势,使得我们在打印、分享、传输过程中能够最优的保持原有色彩和格式。
PDF是以PostScript语言图像模型为基础的一种文档格式,它在格式的稳定性方面虽然具有很大优势。但是,在可编辑性方面却为使用者引入了另外一个困扰。
例如,在文档的分割、合并、剪切、转换、编辑等方面PDF就有些捉襟见肘了。
Adobe Reader、福昕阅读器、熊猫PDF...经常用到的PDF工具只能用于文档阅读,但是免费版都不可以用于文档编辑。虽然,网页版PDF工具,例如SmallPDF、I love PDF可以用于PDF的编辑,但是对于文档大小也有限制。
曾经,为了替换PDF中的一页,我几乎试遍了所有市面上主流的PDF工具,最终还是不得不选择使用付费工具来解决问题。
事后想了想,既然这些商业化软件不靠谱,为什么不考虑自己动手开发一款工具呢?明明几十行代码能够解决的问题,为什么要费那么多劲去下载、安装那些没有节操的软件呢?
本文就来介绍一下利用Python轻松开发一款PDF编辑工具,可以用于PDF转TxT、分割、合并、剪切、转换。
PyPDF2
PyPDF2是一个第三方的python PDF库,它能够对PDF文件进行分割、合并、裁剪和转换页面。
另外,它还可以对PDF文件添加自定义数据、水印、密码,也可以从PDF文件中检索出文本和元数据。
安装
使用pip直接安装:
$ pip install PyPDF2
下面就来演示几项PDF编辑功能,并且会逐行解释代码的含义。
删除PDF页
先给出实现代码,
from PyPDF2 import PdfFileWriter, PdfFileReader
output = PdfFileWriter() // 1
input1 = PdfFileReader(open("example.pdf", "rb")) // 2
def delete_pdf(index):
pages = input1.getNumPages() // 3
for i in range(pages):
if i+1 in index:
continue
output.addPage(input1.getPage(i)) // 4
outputStream = open("PyPDF2-output.pdf", "wb")
output.write(outputStream) // 5
delete_pdf([2,3,4])
下面来解释一下代码中的几个关键点:
声明一个用于输出PDF的实例;
读取本地PDF文件;
获取PDF文档的页数;
读取PDF的第i页,添加到输出output实例中;
把编辑后的文档保存到本地;
合并PDF
已经实现了删除PDF页,接下来就看一下如何把另外一个PDF中的页面合并到当前PDF中。
方法1:
可以沿着前面删除PDF页的方式进行拓展一下,对PDF进行合并。
from PyPDF2 import PdfFileWriter, PdfFileReader
output = PdfFileWriter()
input1 = PdfFileReader(open("example.pdf", "rb"))
input2 = PdfFileReader(open("simple2.pdf", "rb")) // 1
def merge_pdf(add_index, origin_index):
pages = input1.getNumPages()
k = 0
for i in range(pages):
if i+1 in add_index:
output.addPage(input2.getPage(origin_index[k])) // 2
pages += 1
k += 1
output.addPage(input1.getPage(i))
outputStream = open("PyPDF2-output.pdf", "wb")
output.write(outputStream)
merge_pdf([2,3,4], [0, 0, 0])
读取需要合并的源文件;
遍历到指定页,合并源PDF的页面;
方法2:
除了方法1,还有另外一种方法可以合并PDF:
from PyPDF2 import PdfFileMerger // 1
merger = PdfFileMerger()
input1 = open("document1.pdf", "rb") // 2
input2 = open("document2.pdf", "rb")
input3 = open("document3.pdf", "rb")
merger.append(fileobj = input1, pages = (0,3)) // 3
merger.merge(position = 2, fileobj = input2, pages = (0,1)) // 4
merger.append(input3) // 5
output = open("document-output.pdf", "wb")
merger.write(output)
导入PyPDF2合并模块PdfFileMerger;
读取需要处理和合并的PDF文档;
从第一个PDF文档中取出需要合并的前3页;
把第二个PDF文档的第一页插入到文档中;
把第三个PDF文档附到输出文档末尾;
除了上述介绍的2项主要功能,PyPDF2也有一些其他小功能:
旋转
input1.getPage(1).rotateClockwise(90)
使得页面1旋转90度。
添加水印
page = input1.getPage(3)
watermark = PdfFileReader(open("watermark.pdf", "rb"))
page.mergePage(watermark.getPage(0))
其中,水印存储在另外一个PDF文档watermark.pdf中。
加密
password = "secret"
output.encrypt(password)
首先给一个secret密码,然后使用encrypt对输出文档进行加密。
pdfminer
前面介绍的PyPDF2主要擅长于PDF页面级编辑,而对于文本和源数据级别编辑能力较弱。
所以,这里就来介绍另外一款Python库来弥补它的不足。
PDFMiner是一个PDF文档的文本提取工具,它具有如下特性:
能够准确获取文本的位置和布局信息;
可以将PDF转换为HTML/XML等格式;
可以提取目录;
可以提取标签内容;
支持各种字体类型(Type1、TrueType、Type3和CID);
支持中、日、韩语言和垂直书写文本;
安装
$ pip install pdfminer
PDF转TxT
pdfminer在GitHub的托管项目中,在目录tools下给出了一些实用的工具集,例如,PDF转HTML、PDF转HTML、PDF转TXT。我们可以直接通过使用下面命令提出PDF文档中的文本信息。
$ pdf2txt.py samples/simple1.pdf
来源:https://blog.csdn.net/SixStar_FL/article/details/125635991


猜你喜欢
- 前提:我训练的是二分类网络,使用语言为pytorchVaribale包含三个属性:data:存储了Tensor,是本体的数据grad:保存了
- 具体代码如下所示:#coding:utf-8#!/usr/bin/python3from selenium import webdriver
- 实际上,无论是jupyter lab还是juputer notebook其工作目录都是对应在实际磁盘的某个区域的,可以使用%pwd命令进行查
- show parameter processes; 然后 更改系统连接数 alter system set processes=1000 s
- 1.如何将Query String传送到另一个ASP文件去?Response.Redirect("second.asp? 
- 类:定义一件事物的抽象特点。对象:类的 实例。成员变量 − 定义在类内部的变量。该变量的值对外是不可见的,但是可以通过成
- 0.偶然间看到一个奇怪的现象>>> x = 1>>> a = var()>>> a[&
- 当使用AJAX进行GET请求的时候,会有一个现象就是刷新网页后,AJAX请求的数据没有改变,只有把IE的缓存清空,或者从新打开一个IE窗口的
- 目录1、请求模块:urllib.requestdata参数:post请求urlopen()中的参数timeout:设置请求超时时间:响应类型
- 本文实例讲述了Python实现更改图片尺寸大小的方法。分享给大家供大家参考,具体如下:1、PIL包推荐Pillow 。2、源码:#encod
- js格式化金额,可选是否带千分位,可选保留精度,也是网上搜到的,但是使用没问题 /* 将数值四舍五入后格式化. @param num 数值(
- 这篇文章主要介绍了如何使用Python发送HTML格式的邮件,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需
- 这篇文章主要介绍了Python语言异常处理测试过程解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋
- 递归查询对于同一个表父子关系的计算提供了很大的方便,这个示例使用了SQL server 2005中的递归查询,使用的表是CarParts,这
- Python 爬虫包含两个重要的部分:正则表达式和Scrapy框架的运用, 正则表达式对于所有语言都是通用的,网络上可以找到各种资源。如下是
- 没人愿意等待。所以,没有访问者真的能够忍受一个打开速度极慢的网站。但是,网页打开速度到底对用户行为有什么影响,恐怕没几个人能够说清楚吧。前几
- 表分区是最近才知道的哦 ,以前自己做都是分表来实现上亿级别的数据了,下面我来给大家介绍一下mysql表分区创建与使用吧,希望对各位同学会有所
- 这次我主要讲解如何用Python基于Flask的登录和注册,验证方式采用Basic Auth 主要用以下库import os#Flask的基
- 官网文档http://www.yiiframework.com/doc-2.0/guide-structure-assets.htmlyii
- random.randomrandom.random()用于生成一个0到1的随机符点数: 0 <= n < 1.0random.