位置：首页>> 网络编程>> Python编程>> 基于Python获取docx/doc文件内容代码解析

基于Python获取docx/doc文件内容代码解析

作者：python许三多　　发布时间：2022-09-20 09:25:23　

标签：Python,获取,docx,doc

这篇文章主要介绍了基于Python获取docx/doc文件内容代码解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

整体思路：

下载文件并修改后缀为ｚｉｐ文件，解压ｚｉｐ文件，所要获取的内容在固定的文件夹下：work/temp/word/document.xml

所用包，全部是ｐｙｔｈｏｎ自带，不需要额外下载安装．

# encoding:utf-8
import os
import re
import requests
import zipfile
import xml.dom.minidom

newfile = 'test.docx'

def create(newfile):
"""下载docx文件，并修改后缀为zip"""
res = requests.get('https://www.cqjbfy.gov.cn/publiccenter/splc/mb/splc_gginfo.asp?newsid=28949')

if not os.path.exists(newfile):
f = open(newfile, 'wb')
for chunk in res.iter_content(100000):
f.write(chunk)
f.close()

os.rename(newfile, 'test.zip') 这种方法发现只能解决一部分doc文件,具体原因不得而知,有明白的欢迎留言
# 将doc/docx文件压缩成ｚｉｐ文件
#pf = zipfile.ZipFile('test.zip', 'w', zipfile.ZIP_STORED)
#pf.write(newfile)

def get_txt():
"""解压zip，并在work/temp/word/document.xml获取文本内容，进行正则替换标签等操作"""
f = zipfile.ZipFile('test.zip', 'r')
for file in f.namelist():
f.extract(file, "temp/")

f = xml.dom.minidom.parse('./temp/word/document.xml')

txt = re.sub(r'</w:t></w:r></w:p>', '\n', f.toxml())
print re.sub(r'<.*?>', '', txt)

if __name__ == '__main__':
create(newfile)
get_txt()

来源：https://www.cnblogs.com/fanjp666888/p/9877968.html

0

投稿

猜你喜欢

flask框架视图函数用法示例
本文实例讲述了flask框架视图函数用法。分享给大家供大家参考，具体如下：flask框架视图函数当中各种实用情况简单配置1 建立连接2
XHTML1.0规范：您是否为img图片标签赋予alt属性
人们很容易忽视图像img标签的alt属性。然而，它的重要性也无法体现出来，它是有利于网页的accessibility and&nb
PHP中__LINE__,__FILE__,__DIR__等常用魔术常量实例讲解
PHP 向它运行的任何脚本提供了大量的预定义常量。魔术常量准确来说并不能算是常量，常量我们在之前的文章中我们介绍到，常量被定义之后是不能被改
清除代码异味
方法组成模式方法里的所有语句都必须处在同一个归纳层次上无用的注释让代码自我表白标注为什么这样，而不是如何这样对方法表现进行描述等于重复表现这
Python re.findall中正则表达式(.*?)和参数re.S使用
一、re.findall函数介绍它在re.py中有定义：def findall(pattern, string, flags=0): &nb
python神经网络编程之手写数字识别
写在之前首先是写在之前的一些建议：首先是关于这本书，我真的认为他是将神经网络里非常棒的一本书，但你也需要注意，如果你真的想自己动手去实现，那
PyTorch 可视化工具TensorBoard和Visdom
一、TensorBoardTensorBoard 一般都是作为 TensorFlow 的可视化工具，与 TensorFlow 深度集成，它能
请问能否在ASP中调用DLL
如果能，请问如何实现谢谢set aa=server.cre
通过视图修改数据时所应掌握的基本准则
假如不使用INSTEAD OF触发器或可更新分区视图而是通过视图来修改数据，那么再修改之前，请考虑下列准则：◆如果在视图定义中使用了 WIT
python使用numpy读取、保存txt数据的实例
1.首先生成array数组import numpy as npa = np.random.rand(5,5)print(a)结果：array
Python实现矩阵转置的方法分析
本文实例讲述了Python实现矩阵转置的方法。分享给大家供大家参考，具体如下：前几天群里有同学提出了一个问题：手头现在有个列表，列表里面两个
Python Web服务器Tornado使用小结
首先想说的是它的安全性，这方面确实能让我感受到它的良苦用心。这主要可以分为两点：一、防范跨站伪造请求（Cross-site request
selenium3+python3环境搭建教程图解
1、首先安装火狐浏览器有单独文章分享怎么安装2、搭建python环境安装python，安装的时候把path选好，就不用自己在配置，安装方法有
Go 语言 IDE 中的 VSCode 配置使用教程
Gogland 是 JetBrains 公司推出的Go语言集成开发环境。Gogland 同样基于 IntelliJ 平台开发，支持 JetB
python点云地面点滤波(Progressive Morphological Filter)算法介绍（PCL库）
本篇博客参考Keqi Zhang的文章“A Progressive Morphological Filter for Removing No
pycharm全局搜索的具体步骤
Ctrl+N 按文件名搜索py文件ctrl+n可以搜索py文件勾选上面这个框可以搜索工程以外的文件Ctrl+shift+N 按文件名搜索所有
模拟兼容性的 addDOMLoadEvent 事件
由于 window.onload 事件需要在页面所有内容（包括图片等）加载完后，才执行，但往往我们更希望在 DOM 一加载完就执行脚本。其实
Python 字典与字符串的互转实例
字典转换为字符串if __name__ == '__main__': a = {'a' : 1,
mysql回表致索引失效案例讲解
简介mysql的innodb引擎查询记录时在无法使用索引覆盖的场景下，需要做回表操作获取记录的所需字段。mysql执行sql前会执行sql优
JS图片根据鼠标滚动延时加载的实例代码
最近研究了京东商城用jQuery的实现如下：就是默认地址赋给img标签的src2属性，显示时赋给src属性值。function lazylo

PyQt5每天必学之QSplitter实现窗口分隔

pandas中字典和dataFrame的相互转换

python实现好看的时钟效果

使用Python创建简单的HTTP服务器的方法步骤

Python切片知识解析

Python基于smtplib协议实现发送邮件

Python实现统计单词出现的个数

python网络编程使用UDP、TCP协议收发信息详解

Pycharm设置界面全黑的方法

django2.0扩展用户字段示例

同样是制作复古照片，JixiPix Hand Tint Pro是这样做的！

excel表格如何使用FLOOR函数

iOS15.4值得升级吗？各机型升级iOS15.4续航实测

食之契约偶像梦幻祭联动有什么皮肤？偶像梦幻祭联动皮肤图文介绍

Win10禁用麦克风自动加强的方法

Win10电脑更新驱动出现超时提示的图文解决方法

vue.js 图片上传并预览及图片更换功能的实现代码

在win10系统电脑中如何设置延迟更新？怎么老是更新？

流浪餐厅厨神村庄专属食材怎么样？厨神村庄专属食材分布介绍

python函数形参用法实例分析

手机版 网络编程 asp之家 www.aspxhome.com