位置：首页>> 网络编程>> Python编程>> python3用PyPDF2解析pdf文件,用正则匹配数据方式

python3用PyPDF2解析pdf文件,用正则匹配数据方式

作者：零度愿望　　发布时间：2021-08-29 21:24:01　

标签：python3,PyPDF2,pdf,正则

我就废话不多说了，大家还是看代码吧！

import PyPDF2
import re

pdf_file = open('xxx.pdf', mode='rb')
read_pdf = PyPDF2.PdfFileReader(pdf_file)
# 获取pdf文件的所有页数
number_of_pages = read_pdf.getNumPages()
# print('total_page: ', number_of_pages)
line_list = []
# 循环遍历每一页
for i in range(0, number_of_pages):
# 读取每一页的内容
page = read_pdf.getPage(i)
page_content = page.extractText()
# 将这一页的内容分割为列表，，并相加所有的页面内容
line_list += page_content.split()
# 关闭pdf文件
pdf_file.close()
line_buf = ''
for buf in line_list:
line_buf = line_buf+' '+buf
# 匹配数据：第一列和第二列如：000069.sz 和 100
# print(line_buf)
a = re.findall('([0-9]+[0-9]+[0-9]+[0-9]+[0-9]+[0-9]+.[a-z]+[a-z])', line_buf)
b = re.findall('[0-9]+[0-9]+[0-9]+[0-9]+[0-9]+[0-9]+.[a-z]+[a-z].([0-9,]+)', line_buf)
# print(b)
for i in range(0, len(a)):
a[i] = a[i].upper()
for i in range(0, len(b)):
b[i] = int(b[i].replace(',', ''))
# print(b)
# 组成字典
results = dict(zip(a, b))

正则的其他用法：

fp = open(filename,"w")
fp.write(re.search('(StockDescription:)([a-zA-Z]+-[a-zA-Z]+)',line_buf).group(2) +',')
fp.write(time.strftime('％Y％m％d',time.strptime(re.search('(TradeDate:)([0-9]+[a-zA-Z]+[0-9]+)',line_buf).group(2),'％d％B％Y')) +',')
fp.write(re.search('(Price:[A-Z]+)([0-9.,]+)',line_buf).group(2).replace(',','')+',')
fp.close()

补充知识：Logger logger = Logger.getLogger(Class clazz)获取不得的问题

因为有多个同名的Logger类，在测试的时候没注意就直接选了第一个，发现不能用，以为是JAR包的问题，重新导一遍也不能，配置文件检查过也不行，最后发现是类用错了。

要打印日志用的是log4j包里的Logger类

来源：https://blog.csdn.net/qq_42336573/article/details/83537812

0

投稿

猜你喜欢

关于Ajax responseText 中文乱码问题
前一段时间碰到这样的的问题，Ajax从后台得到的中文信息怎么都是空。后来到网上搜资料，大多是以下这样。用AJAX来GET回一个页面时，RES
python的字典和集合你了解吗
字典d = {key1 : value1, key2 : value2, key3 : value3 }键必须是唯一的，但值则不必。值可以取
python ipset管理增删白名单的方法
为方便用ipset 来管理防火墙，写了下面Ipset类来对Ip进行管理#!/usr/bin/env python# coding: utf-
超好玩的"隔空操物"通过Python MediaPipe库实现
🚀 文章简介：本篇文章的实战部分中主要使用到了 MediaPipe 与 OpenCv 两个库，实现了隔空操作的效果，主要有**隔空操作鼠标
Python jieba库分词模式实例用法
在中文分词中，jiebe库是最为常见的，主要的原因还是它独特的支持分词模式如：精确模式、全模式、搜索引擎模式。也对应着三种方式，包括jieb
oracle横向纵向求和代码实例
有一张工资表SALARY如下, (NO 员工编号，MONEY 工资)NO NAME &nbs
XPath详解,总结
经常在工作中会使用到XPath的相关知识，但每次总会在一些关键的地方不记得或不太清楚，所以免不了每次总要查一些零碎的知识，感觉即很烦又浪费时
Pytorch中的variable, tensor与numpy相互转化的方法
在使用pytorch作为深度学习的框架时，经常会遇到变量variable、张量tensor与矩阵numpy的类型的相互转化的问题，本章结合这
如何使用scrapy中的ItemLoader提取数据
1. 简述我们在用scrapy爬取数据时，首先就要明确我们要爬取什么数据。scrapy提供了Item对象这种简单的容器，我们可以通过Item
sql IDENTITY_INSERT对标识列的作用和使用
一般情况下，当数据表中，莫一列被设置成了标识列之后，是无法向标识列中手动的去插入标识列的显示值。但是，可以通过设置SET IDENTITY_
浅谈python中列表、字符串、字典的常用操作
列表操作如此下：a = ["haha","xixi","baba"]增：a.ap
golang 生成对应的数据表struct定义操作
在开发过程中，常常需要将数据库表对应到golang的一个struct，特别是使用一些ORM工具，sqlx库等，我是个懒人，即使数据表的字段不
NumPy-ndarray 的数据类型用法说明
ndarray 的数据类型数据类型，即 dtype ，也是一个特殊的对象，它包含了ndarray需要为某一种类型数据所申明的内存块信息（也
实践Python的爬虫框架Scrapy来抓取豆瓣电影TOP250
安装部署Scrapy在安装Scrapy前首先需要确定的是已经安装好了Python（目前Scrapy支持Python2.5，Python2.6
一个asp版XMLDOM操作类
<script language="vbscript" runat="s
Python生成随机验证码的两种方法
使用python生成随机验证码的方法有很多种，今天小编给大家分享两种方法，大家可以灵活运用这两种方法，设计出适合自己的验证码方法。方法一：利
go程序员日常开发效率神器汇总
一. 开发工具1)sql2go用于将 sql 语句转换为 golang 的 struct. 使用 ddl 语句即可。例如对于创建表的语句:
MySQL对JSON类型字段数据进行提取和查询的实现
前言昨天上线后通过系统报警发现了一个bug，于是紧急进行了回滚操作，但是期间有用户下单，数据产生了影响，因此需要排查影响了哪些订单，并对数据
python 插入Null值数据到Postgresql的操作
数据库中最好插入Null值。在python中，暂时没找到通过sql语句的方式插入Null值。推荐使用轮子的方法def insert_samp
pycharm导入第三方库的两种方法(永不报错)
前言在学习python的过程中，我们会使用到各种各样的第三方库，但是如何pip有n种方法，如系统提示如在terminal中pip

使用Python标准库中的wave模块绘制乐谱的简单教程

python元类编程的基本使用

Python3.9.0 a1安装pygame出错解决全过程(小结)

Python+Turtle动态绘制一棵树实例分享

教你如何利用python3爬虫爬取漫画岛-非人哉漫画

python计算机视觉OpenCV入门讲解

Python新手入门之解释器的安装

python使用装饰器和线程限制函数执行时间的方法

Python实战之实现简易的学生选课系统

python中的断言(assert语句)

WPS演示制作胶卷循环播放的方法

显卡驱动卸载后黑屏了怎么办？

原神愿望任务怎么触发

利用PowerPoint 2003制作各式各样形状的图片

B站视频封面怎么提取？B站视频封面提取教程

炉石传说酒馆战棋恶魔卡牌哪些好？恶魔卡牌选择推荐

小米手机怎么隐藏应用

WIN10系统怎么更改默认字体

电脑防火墙怎么关系统防火墙的禁用方法

奥拉星手游冰拳艾司属性怎么样-奥拉星手游冰拳艾司技能属性玩法攻略详解

手机版 网络编程 asp之家 www.aspxhome.com