Python实现文字pdf转换图片pdf效果
作者:KjPrime 发布时间:2021-03-10 23:20:03
标签:Python,文字,图片,pdf
前言
为什么会做这个?
因为我们把word转化为pdf,wps默认转化为文字pdf,而图片pdf要会员。
网上确实也有网站可以实现免费的,但是未必安全。
思路
我看了网上的很多代码,都是先把文字pdf先转化为图片,然后再组装成pdf文档。我的思路也是这样的。
但是我和他们很大的不一样就是,我不需要先把图片保存起来再提取,而我只需要把图片的信息先存起来,再输出pdf。
代码展示
先安装依赖
pip install PyMuPDF
输入文件列表
import os
import fitz
def single_wordpdf_to_imgpdf(pdf_path: str):
pdf = fitz.open(pdf_path) # 打开pdf目录
pdf_img = fitz.open() # 打开空文件,用来存图片pdf
for page_inf in pdf:
definition = 3 # 清晰度,感觉输出的pdf不够清晰,可以调大,调大,文件大小也会变大
matrix = fitz.Matrix(definition, definition)
img = page_inf.get_pixmap(matrix=matrix).tobytes()
img = fitz.open("png", img)
pdf_bytes = img.convert_to_pdf()
pdf_img.insert_pdf(fitz.open("pdf", pdf_bytes))
pdf_img.save("图片pdf_" + os.path.basename(pdf_path))
def group_wordpdf_to_imgpdf(path_array: list[str]):
for pdf_path in path_array:
print(pdf_path, "转换中...")
single_wordpdf_to_imgpdf(pdf_path)
print("完成")
if __name__ == '__main__':
path = ["xxx.pdf"]
group_wordpdf_to_imgpdf(path)
输入文件夹
import os
import fitz
import time
def single_wordpdf_to_imgpdf(pdf_path: str):
pdf = fitz.open(pdf_path) # 打开pdf目录
pdf_img = fitz.open() # 打开空文件,用来存图片pdf
for page_inf in pdf:
definition = 3 # 清晰度,感觉输出的pdf不够清晰,可以调大,调大,文件大小也会变大
matrix = fitz.Matrix(definition, definition)
img = page_inf.get_pixmap(matrix=matrix).tobytes()
img = fitz.open("png", img)
pdf_bytes = img.convert_to_pdf()
pdf_img.insert_pdf(fitz.open("pdf", pdf_bytes))
if not os.path.exists("output"):
os.makedirs("output") # 处理好的pdf存入了output目录下 #
pdf_img.save("output/图片pdf_" + os.path.basename(pdf_path))
def group_wordpdf_to_imgpdf(path_array: list[str]):
for pdf_path in path_array:
print(pdf_path, "转换中...")
single_wordpdf_to_imgpdf(pdf_path)
print("完成")
def folder_pdf_files(folder: str) -> list[str]: # 一个文件夹里面有多少pdf文件
file_list = []
for a, b, c in os.walk(folder):
if b == []:
for filename in c:
if filename[-3:].lower() == 'pdf':
file_path = os.path.join(a, filename)
file_list.append(file_path)
print(folder, ": 有", len(file_list), "个pdf文件")
return file_list
if __name__ == '__main__':
time_start = time.time()
path_list = folder_pdf_files("目录")
group_wordpdf_to_imgpdf(path_list)
time_end = time.time()
print("程序运行时间:", round(time_end - time_start, 2), "秒")
来源:https://blog.csdn.net/qq_45019494/article/details/123741012


猜你喜欢
- 本文实例讲述了Python推导式。分享给大家供大家参考,具体如下:1. 列表推导式>>> li = [1,2,3,4,5,
- TextRank 是一种基于 PageRank 的算法,常用于关键词提取和文本摘要。在本文中,我将通过一个关键字提取示例帮助您了解 Text
- 字符串格式化输出是python非常重要的基础语法,今天就把三种格式化输出做一个简单的总结,希望对大家有帮助。格式化输出:内容按照一定格式要求
- 升级pippip版本必须升级到20.0.4版本才能应用;方法一、在pycharm中对pip进行升级;方法二、通过命令进行升级python3.
- 本文不涉及分类器、训练识别器等算法原理,仅包含对其应用(未来我也会写自己对机器学习算法原理的一些观点和了解)首先我们需要知道的是利用现有框架
- 当由where子句指定的搜索条件指向另一张表时,就需要使用子查询或嵌套查询。1 子查询子查询是一个嵌套在select、insert、upda
- 本文以实例形式简述了Python实现字符串排序的方法,是Python程序设计中一个非常实用的技巧。分享给大家供大家参考之用。具体方法如下:一
- 搞了一个DIV+CSS菜单,兼容Firefox,分享给大家,大家一齐学习 <!DOCTYPE html PUBLIC "-/
- 在工作中遇到过 个问题执行一条代码时间过长 而且还不报错,卡死在那。还要继续执行下面代码,如何操作。下面是个简单的实例pip安装 第三方ev
- 前言现在我能一整天都严肃地盯着屏幕,看起来就像在很认真地工作,利用摸鱼,打开小说,可实行完美摸鱼,实时保存进度用PYQT5 Mock一个摸鱼
- 迷宫生成1.随机PRIM思路:先让迷宫中全都是墙,不断从列表(最初只含有一个启始单元格)中选取一个单元格标记为通路,将其周围(上下左右)未访
- HttpRequest.FILES表单上传的文件对象存储在类字典对象request.FILES中,表单格式需为multipart/form-
- 接触replication后,就开始琢磨自己要配置下试试,固然出现了很多问题:经过上网查资料也好问同学也好,终于是解决了些.现在就分享下自己
- 深入作用域链与闭包为什么要把作用域链和闭包放在一起讲呢,它们有什么关联吗?试想,我们如果在一个内部的函数使用了外部的变量,是通过[[oute
- 前言: 有时候,一个数据库有多个帐号,包括数据库管理员,开发人员,运维支撑人员等,可能有很多帐号都有比较大的权限,例如DDL操作权限(创建,
- 背景:pony是公司的首席体验官、首席产品经理。这次在产品峰会上pony将自己平时经验的积累与大家交流,体验较细。这次分享研发管理部,设计中
- 新手,参考了以下链接:python opencv在图像上画矩形(已验证)本文可以实现在指定图片上动态绘制圆和矩形。import cv2imp
- 杨紫和肖战的《余生请多指教》于3月15日起腾讯视频全网独播,湖南卫视金鹰独播剧场晚8:20播放。对于杨紫的纯剧粉(战长沙入的坑图片),想要用
- 本文实例讲述了JS实现控制表格内指定单元格内容对齐的方法。分享给大家供大家参考。具体如下:下面的代码控制表格单元格的内容向右对齐<!D
- 本文实例讲述了python实现的多任务版udp聊天器。分享给大家供大家参考,具体如下:说明编写一个有2个线程的程序线程1用来接收数据然后显示