网络编程
位置:首页>> 网络编程>> Python编程>> 基于Python获取docx/doc文件内容代码解析

基于Python获取docx/doc文件内容代码解析

作者:python许三多  发布时间:2022-09-20 09:25:23 

标签:Python,获取,docx,doc

这篇文章主要介绍了基于Python获取docx/doc文件内容代码解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

整体思路:

下载文件并修改后缀为zip文件,解压zip文件,所要获取的内容在固定的文件夹下:work/temp/word/document.xml

所用包,全部是python自带,不需要额外下载安装.


# encoding:utf-8
import os
import re
import requests
import zipfile
import xml.dom.minidom

newfile = 'test.docx'

def create(newfile):
 """下载docx文件,并修改后缀为zip"""
 res = requests.get('https://www.cqjbfy.gov.cn/publiccenter/splc/mb/splc_gginfo.asp?newsid=28949')

if not os.path.exists(newfile):
   f = open(newfile, 'wb')
   for chunk in res.iter_content(100000):
     f.write(chunk)
   f.close()

os.rename(newfile, 'test.zip')  这种方法发现只能解决一部分doc文件,具体原因不得而知,有明白的欢迎留言
 # 将doc/docx文件压缩成zip文件
 #pf = zipfile.ZipFile('test.zip', 'w', zipfile.ZIP_STORED)
 #pf.write(newfile)

def get_txt():
 """解压zip,并在work/temp/word/document.xml获取文本内容,进行正则替换标签等操作"""
 f = zipfile.ZipFile('test.zip', 'r')
 for file in f.namelist():
   f.extract(file, "temp/")

f = xml.dom.minidom.parse('./temp/word/document.xml')

txt = re.sub(r'</w:t></w:r></w:p>', '\n', f.toxml())
 print re.sub(r'<.*?>', '', txt)

if __name__ == '__main__':
 create(newfile)
 get_txt()

来源:https://www.cnblogs.com/fanjp666888/p/9877968.html

0
投稿

猜你喜欢

手机版 网络编程 asp之家 www.aspxhome.com