Python 获取指定开头指定结尾所夹中间内容(推荐)
作者:来一粒4869 发布时间:2021-12-13 10:32:05
cv的xdm可以直接翻到 需求 和 代码 用,想看中间的分析就老实往下看吧
little 背景
最近在做毕设,需要将几百篇整体结构差不多的文章中提取出一些内容,所以才有了这个blog。
需求
获取文章中指定开头、指定结尾中所夹的内容。其中,开头和结尾均有多种,但最多也就十几种,所以代码还是具有可行性的。
例:
X X 市 人 民 检 察 院 指 控 : ‾ \underline{XX市人民检察院指控:} XX市人民检察院指控:被告人XXX与被害人YYY(女,殁年41岁,系XXX妻子)因家庭矛盾多次发生争执。X年Y月Z日早晨,被告人XXX在X市X市场…被告人XXX为偏执性精神障碍,具有限制刑事责任能力。
公 诉 机 关 认 为 ‾ \underline{公诉机关认为} 公诉机关认为,被告人XXX故意非法剥夺他人生命,致一人死亡,其行为应以故意 * 罪追究刑事责任
所需内容为:第一个下划线到第二个下划线中间的内容,即“被告人XXX…责任能力。”。其中,“检察院指控”是指定开头,“公诉机关认为”是指定结尾。
解决方案
原本想着NLP有没有现成的库可以直接调包,后来搜了半天没搜到,然后看到了正则表达式(真香)。
代码
低配方法:
适用于只有一种固定开头和结尾,多种就不行了
import re
def GetMiddleStr(content,startStr,endStr):
# patternStr = r'.*%s(.+?)%s.*'%(startStr,endStr) # 此模式不能跨段,‘.'只能匹配除了'\n'外所有单个字符
patternStr = r'[\s\S]*%s(.+?)%s[\s\S]*'%(startStr,endStr)
# patternStr = re.compile(patternStr,re.IGNORECASE) # 忽略大小写 ,这个适用于英文文章
middleStr= re.match(patternStr,content)
if middleStr:
return middleStr.group(1)
中配方法:
适用于多种固定开头和结尾,不过是蛮力法,可以优化判断,减少循环次数
import re
def GetMiddleStr2(content,startStr,endStr):
# patternStr = r'.*%s(.+?)%s.*'%(startStr,endStr)
goalStr = str('')
for sStr in startStr:
for eStr in endStr:
patternStr = r'[\s\S]*%s(.+?)%s[\s\S]*'%(sStr,eStr)
middleStr= re.match(patternStr,content)
if middleStr:
if not goalStr: # 判断 空 时候的值
goalStr = middleStr.group(1)
else: # 非空时,将将短的留下来
goalStr = middleStr.group(1) if len(goalStr)>len(middleStr.group(1)) else goalStr
return goalStr
运行效果
content='且得到被害人家属谅解。综上,建议法庭对被告人XXX减轻处罚。经审理查明:被告人XXX与被害人YYY因家庭矛盾多次发生争执。X年Y月Z日清晨,被告人XXX在X市X市场......被告人XXX为偏执性精神障碍,具有限制刑事责任能力。公诉机关认为,被告人XXX故意非法剥夺他人生命,致一人死亡,其行为应以故意 * 罪追究刑事责任'
startStr = '经审理查明:'
endStr = '公诉机关认为,'
print(GetMiddleStr(content,startStr,endStr))
第二种运行时将startStr和endStr分别赋值为:[‘AAA’,‘BBB’,…],即可
例如:
startStr = [‘审理查明:’,‘审理查明:’,‘检察院指控’]
endStr = [‘经鉴定’,‘经鉴定,’, ‘归案后’]
代码讲解
正则表达式查一下手册即可:
.*:除了’\n’以外所有字符重复多次
[\s\S]:空白字符或者非空白字符,即所有字符(一个集合∪它在全集中的补集,即全集)
其余查一下手册就ok
正则表达式手册
来源:https://blog.csdn.net/qq_43661601/article/details/122519415


猜你喜欢
- 除了传递给日志记录函数的参数(如msg)外,有时候我们还想在日志输出中包含一些额外的上下文信息。比如,在一个网络应用中,可能希望在日志中记录
- 前言: 在数据库运维过程中,我们时常会关注数据库的链接情况,比如总共有多少链接、有多少活跃链接、有没有执行时间过长的链接等。数据库
- 因为他的简单实用和数量庞大的插件,所以我们喜欢和使用jQuery,在jQuery数量庞大的插件中有很大的一部分是关于图片的,所以今天我们就整
- 一、Go语言实战——自定义集合Set在Go语言中有作为Hash Table实现的字典(Map)类型,但标准数据类型中并没有集合(Set)这种
- 众神殿内,依次坐着Editplus、Atom、Sublime、Vscode、JetBrains家族、Comodo等等一众编辑器界的大佬们,偌
- 本文介绍了从golang语言中fmt包从标准输入获取数据的Scan系列函数、从io.Reader中获取数据的Fscan系列函数以及从字符串中
- 一、用HTTP头信息 也就是用PHP的HEADER函数。PHP里的HEADER函数的作用就是向浏览器发出由HTTP协议规定的本来应该通过WE
- WTForms 是用于web开发的灵活的表单验证和呈现库,它可以与您选择的任何web框架和模板引擎一起工作,并支持数据验证、CSRF保护、国
- Mysql自连接1、在日常对数据库的操作中,我们很熟悉使用INNER JOIN,LEFT JOIN 把一个表和另外一个表连接起来,潜意识里会
- 前言本文将记录学习基于 Socket 通信机制建立 TCP 反向连接,借助 Python 脚本实现主机远程控制的目的。我们在传输数据时,可以
- 为了防止某些别有用心的人从外部访问数据库,盗取数据库中的用户姓名、密码、信用卡号等其他重要信息,在我们创建数据库驱动的解决方案时,我们首先需
- 此方法创建了请求另一个URL的HTML超文本链接。语法string.link( hrefname )下面是参数的详细信息:&nb
- 一般在Django的视图函数中使用request.POST来获取请求体,request.POST是QueryDict类,通常作为dict来使
- 浏览器中某些计算和处理要比其他的昂贵的多。例如,DOM操作比起非DOM交互需要更多的内存和CPU时间。连续尝试进行过多的DOM相关操作可能会
- ppt要想完美的转pdf,图片,还是需要在windows下面来操作。1,安装python3.5.1下载地址Windows x86-64 ex
- 人丑就要多读书,颜值不够知识来凑,至少你可以用书籍来武装你的大脑,拯救你的人生。TIOBE编程语言排行榜前20的语言入门书籍推荐
- 多表关系在进行数据库表结构的设计时,会根据业务的需求和业务模块之间的关系,分析设计表结构,由于业务之间相互关联,所以各个表结构之间也存在各种
- 文章摘要本文简单说明了FLV文件的格式,以此为出发点,使用 Python 实现FLV视频的拼接。一.FLV文件格式关于FLV文件格式的解析网
- 前言腾讯《Go安全指南》中提到【必须】nil指针判断:进行指针操作时,必须判断该指针是否为nil,防止程序panic,尤其在进行结构体Unm
- 1.在服务器环境中安装centosyum install python3X[X代表版本号]ubuntuapt-get install pyt