Python操作PDF文件之实现A3页面转A4
作者:侯小啾 发布时间:2021-03-06 19:45:06
标签:Python,PDF,操作
1. 需求概述
最近接到一份PDF资料需要打印,奈何页面是如图所示的A3格式的,奈何目前条件只支持打印A4。
我想要把每页的一个大页面裁成两个小的页面,以便打印工作的顺利进行。
遂决定写一段python代码,来实现该功能。
2. 代码实现
首先在当前目录下创建一个python文件,并编辑以下代码。
导入相关库后,代码共定义三个函数,
第一个函数将pdf拆分为多个图片,放在自动新建的images1文件夹中。
第二个函数则将每个图片进行切割,切割后的图片放在自动创建的images2文件夹中。
第三个函数则将images2文件夹中的每个图片合并成为pdf。
import fitz
import time
import os
import cv2
from fpdf import FPDF
from PIL import Image
# 将pdf分割为图片,并建立一个images1文件夹保存之 传入要拆解的pdf文件名
def to_image(file_name):
dir1 = "images1"
if not os.path.exists(dir1):
os.mkdir(dir1)
time_start = time.time()
doc = fitz.open(file_name)
rotate = int(0)
zoom_x = 2.0
zoom_y = 2.0
trans = fitz.Matrix(zoom_x, zoom_y)
print("%s开始转换..." % file_name)
pg = 0
for page in doc:
timep_start = time.time()
pg += 1
pm = page.get_pixmap(matrix=trans, alpha=False)
new_full_name = dir1 + "/" + file_name.split(".")[0]
filename1 = "{0:s}{1:0>3d}.jpg".format(new_full_name, pg)
pm.save(filename1)
timep_end = time.time()
print('第 ' + str(pg) + ' 页生成图片累计用时:' + str(timep_end - timep_start))
time_end = time.time()
print('拆解累计用时:' + str(time_end - time_start))
# 将images1文件夹中的每个图片,左右分割为两张,并新建images2文件夹以保存文件
def cut_img():
for img in os.listdir("images1"):
image = cv2.imread("images1/" + img)
x0 = int(image.shape[1]/2)
dir2 = "images2"
if not os.path.exists(dir2):
os.mkdir(dir2)
img1 = image[:, 0:x0]
img2 = image[:, x0:]
cv2.imwrite(dir2 + "/" + img[:-4] + '1.jpg', img1)
cv2.imwrite(dir2 + "/" + img[:-4] + '2.jpg', img2)
# 将images2文件夹中的图片合并成为一个pdf,按照文件名的顺序 传入输出的pdf文件名
def makePdf(pdfFileName):
listPages = ["images2/" + imgFileName for imgFileName in os.listdir('images2')]
cover = Image.open(listPages[0])
width, height = cover.size
pdf = FPDF(unit="pt", format = [width, height])
for page in listPages:
pdf.add_page()
pdf.image(page, 0, 0)
pdf.output(pdfFileName, "F")
# 执行
if __name__ == "__main__":
to_image("test.pdf")
cut_img()
makePdf("result.pdf")
处理后得到的文件,即result.pdf
,打开后效果如下图所示:
可以看到页面成功地被分割,并由原来的11页变成了22页。非常的完美,打印工作可以顺利进行了。
来源:https://blog.csdn.net/weixin_48964486/article/details/127609904


猜你喜欢
- 一、定义集合中的元素是无序的、唯一的、不可变的类型。集合是一个特殊的列表,可以对数据去重。lists = [1,3,5,7,3,4,6,2,
- 到底什么是Python?•Python是一种解释性语言。Python代码在运行之前不需要编译。其它解释性语言还包括PHP和Ruby。•Pyt
- 讲解我们的爬虫之前,先概述关于爬虫的简单概念(毕竟是零基础教程)爬虫网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收
- 下面十条内容的标题原本是《10 Lessons for Young Designers》,是John C. Jay给年青设计师们的十条经验教
- 前言有的时候上游传过来的字段是string类型的,但是我们却想用变成数字来使用。 本来用一个json:",string"
- 介绍本文将展示如何利用Python爬虫来实现诗歌接龙。该项目的思路如下:利用爬虫爬取诗歌,制作诗歌语料库;将诗歌分句,形成字典:键(key)
- 二进制日志二进制日志中以“事件”的形式记录了数据库中数据的变化情况,对于MySQL数据库的灾难恢复起
- 检查node的版本和gulp版本,最好使用nvm来管理node版本,本人遇到这两种版本匹配的时候会造成layaair2-cmd命令编译报错的
- 如何去读取一个没有表头的二维csv文件(如下图所示)?并以元组的形式表现数据:((1.0, 0.0, 3.0, 180.0), (2.0,
- 以下是几个文件操作过程,创建文件,删除文件,修改文件:
- 本文实例讲述了Python 26进制计算方法。分享给大家供大家参考。具体分析如下:题目是这样的:假设A=1,B=2,C=3...AA=27,
- 假设我们要添加一个我们自己的Middleware,用来记录每次请求的日志下面就是一个符合规范的Middleware, 构造函数中接受一个WS
- 1、手上目前拥有数据集是一大坨,没有train,test,val的划分如图所示2、目录结构:|---data |
- 本文实例讲述了python创建关联数组(字典)的方法。分享给大家供大家参考。具体分析如下:关联数组在python中叫字典,非常有用,下面是定
- vue通信方式有很多,项目中用的比较多的的有 pros、vuex、$emit/$on 这3种,还有 provide/in
- 本文实例讲述了Python实现求最大公约数及判断素数的方法。分享给大家供大家参考。具体实现方法如下:#!/usr/bin/env pytho
- 序列概念在分片规则里list、tuple、str(字符串)都可以称为序列,都可以按规则进行切片操作切片操作注意切片的下标0代表顺序的第一个元
- 任务识别用相机拍下来的答题卡,并判断最终得分(假设正确答案是B, E, A, D, B)主要步骤轮廓识别——答题卡边缘识别透视变换——提取答
- 目录socket概念socket基本用法创建tcp套接字创建udp套接字socket内建方法实现端口扫描总结socket概念socket又称
- 什么是SQL?SQL是一种用于操作数据库的语言。SQL是用于所有数据库的基本语言。不同数据库之间存在较小的语法更改,但基本的SQL语法基本保