python的PyPDF2实现pdf文件切割和合并
作者:qq_29235677 发布时间:2023-02-07 19:57:39
标签:python,PyPDF2,pdf
今天想使用pdf的切分软件实现pdf文件的切分,但是软件需要会员???好吧,,,,又要会员,这么简单的功能能难倒咱们程序员吗。俗话说自给自足丰衣足食,决定使用python自己切分文件。
在百度了一番后,发现大多都是使用 Adobe Acrobat 软件进行剪裁,这完全不 Pythonic,因此又找了用 Python 处理 PDF 文件的方法,最后发现了 PyPDF2 这个库,本文将利用这个库,实现对 PDF 的分割。
首先,你需要通过 pip 安装这个库:
pip install PyPDF2
要使用python的
# 导入读写pdf模块
from PyPDF2 import PdfFileReader, PdfFileWriter
'''
注意:
页数从0开始索引
range()是左闭右开区间
'''
def split_pdf(file_name, start_page, end_page, output_pdf):
'''
:param file_name:待分割的pdf文件名
:param start_page: 执行分割的开始页数
:param end_page: 执行分割的结束位页数
:param output_pdf: 保存切割后的文件名
'''
# 读取待分割的pdf文件
input_file = PdfFileReader(open(file_name, 'rb'))
# 实例一个 PDF文件编写器
output_file = PdfFileWriter()
# 把分割的文件添加在一起
for i in range(start_page, end_page):
output_file.addPage(input_file.getPage(i))
# 将分割的文件输出保存
with open(output_pdf, 'wb') as f:
output_file.write(f)
def merge_pdf(merge_list, output_pdf):
"""
merge_list: 需要合并的pdf列表
output_pdf:合并之后的pdf名
"""
# 实例一个 PDF文件编写器
output = PdfFileWriter()
for ml in merge_list:
pdf_input = PdfFileReader(open(ml, 'rb'))
page_count = pdf_input.getNumPages()
for i in range(page_count):
output.addPage(pdf_input.getPage(i))
output.write(open(output_pdf, 'wb'))
if __name__ == '__main__':
# 分割pdf
split_pdf("test.pdf", 0, 3, "0-2.pdf")
split_pdf("test.pdf", 7, 12, "7-11.pdf")
split_pdf("test.pdf", 18, 23, "18-22.pdf")
split_pdf("test.pdf", 27, 33, "26-32.pdf")
split_pdf("test.pdf", 40, 44, "40-43.pdf")
split_pdf("test.pdf", 46, 51, "46-50.pdf")
split_pdf("test.pdf", 58, 66, "58-65.pdf")
split_pdf("test.pdf", 77, 84, "77-83.pdf")
split_pdf("test.pdf", 93, 97, "93-96.pdf")
split_pdf("test.pdf", 102, 106, "102-105.pdf")
# 合并pdf
# 合并的pdf列表
pdf_list = ["0-2.pdf", "7-11.pdf", "18-22.pdf", "26-32.pdf", "40-43.pdf", "46-50.pdf", "58-65.pdf", "77-83.pdf", "93-96.pdf", "102-105.pdf"]
merge_pdf(pdf_list, "all.pdf")
下面是切分好的文件效果,完美
来源:https://blog.csdn.net/qq_29235677/article/details/122895023
0
投稿
猜你喜欢
- 写在前面在QQ群,微信群,论坛中经常帮助使用SQL Server数据库的朋友解决问题,但是有一些最常见最基本的问题,每天都有人问,回答多了也
- pyqtgraph是Python平台上一种功能强大的2D/3D绘图库,相对于matplotlib库,由于其在内部实现方式上,使用了高速计算的
- 具体内容如下所示:一、常用函数1、ASCII()返回字符表达式最左端字符的ASCII 码值。在ASCII()函数中,纯数字的字符串可不用‘&
- 前言在web测试中,不可避免的一个测试就是浏览器兼容性测试,在没有自动化测试前,我们总是苦逼的在一台或多台机器上安装N种浏览器,然后手工在
- 1.背景看到这个标题你可能想一个分块能有什么难度?还值得细说吗,最近确实遇到一个有意思的分块函数,写法比较巧妙优雅,所以写一个分享。日前在做
- python中zip()函数用法举例定义:zip([iterable, ...])zip()是Python的一个内建函数,它接受一系列可迭代
- 本文实例讲述了Python单链表的简单实现方法,分享给大家供大家参考。具体方法如下:通常来说,要定义一个单链表,首先定义链表元素:Eleme
- 本文实例为大家分享了python实现图像识别的具体代码,供大家参考,具体内容如下#! /usr/bin/env python from PI
- 在JS/TS项目里,除了能看到==操作符来判断两个变量是否相等外,我们还会看到===操作符,这两者有什么区别吗?先上结论,对于String,
- 内联优化是一种常见的编译器优化策略,通俗来讲,就是把函数在它被调用的地方展开,这样可以减少函数调用所带来的开销(栈的创建、参数的拷贝等)。当
- 今天遇到多条件搜索,其中需要用到in查询,但是laravel不支持 [ 'type', 'in', '
- <?php session_start(); $_SESSION['username']="zhuzhao&
- 前言Blender 并不是唯一一款允许你为场景编程和自动化任务的3D软件; 随着每一个新版本的推出,Blender 正逐渐成为一个可靠的 C
- 本文实例讲述了python执行get提交的方法。分享给大家供大家参考。具体如下:import sys, urllib2, urllibdef
- 一.filter函数简介filter函数主要用来筛选数据,过滤掉不符合条件的元素,并返回一个迭代器对象,如果要转换为列表list或者元祖tu
- 一、创建飞书机器人自定义飞书机器人操作步骤,具体详见飞书官方文档:《机器人 | 如何在群聊中使用机器人?》二、调用飞书发送消息自定义机器人添
- 本文实例讲述了Python开发中爬虫使用代理proxy抓取网页的方法。分享给大家供大家参考,具体如下:代理类型(proxy):透明代理 匿名
- 在安排Web页面的布局时,最常用的方法之一是用HTML表格界定页面的结构。例如,假设Web页面由顶端的
- /* --注意:准备数据(可略过,非常耗时) CREATE TABLE CHECK1_T1 ( ID INT, C1 CHAR(8000)
- 前言Tensorflow的核心与NumPy非常相似,但具有GPU支持;Tensorflow支持分布式计算(跨多个设备和服务器)。像NumPy