Python re.sub 反向引用的实现
作者:Tsonglew 发布时间:2022-07-26 11:25:21
目录
match 分组
re.sub 匹配和替换
反向引用
参考
re 模块是 Python 标准库中提供的用于处理正则表达式的模块,利用 re 模块可以方便的利用正则表达式实现字符串中的匹配、替换等操作
match 分组
Python re 模块中提供了 match 函数,用来匹配字符串中指定的正则表达式规则。例如,如果想匹配到 "Isaac Newton, physicist" 中的 Isaac Newton,则可以使用正则表达式 \w+ \w+ ,运行结果如下:
>>> m = re.match("\w+ \w+", "Isaac Newton, physicist")
>>> m
<re.Match object; span=(0, 12), match='Isaac Newton'>
re.match 的第一个参数是指定的正则表达式规则,第二个参数是待匹配的字符串。正则表达式规则 \w+ 表示匹配一段连续的字符,要求匹配到的字符数量大于 1。 \w+ \w+ 就表示匹配两段连续的字符,且两段字符中间用空格隔开
使用 match 执行匹配时会对匹配到的结果进行 分组 ,可以通过 match 返回结果的 group() 接口查看分组结果
>>> m.group(0)
'Isaac Newton'
默认情况下, match 只会产生一个分组,就是第 0 个分组,表示整个匹配到的内容。对于上面的例子,第 0 个分组就是 \w+ \w+ 匹配到的完整的内容,也就是 Issac Newton 。
使用正则表达式中的括号 () 可以手动指定匹配的分组。例如如果想把 Issac 和 Newton 做为两个分组,那么可以将正则表达式改为 (\w+) (\w+) :
>>> m = re.match("(\w+) (\w+)", "Isaac Newton, physicist")
在 (\w+) (\w+) 这个正则表达式中,指定了两个分组,这两个分组匹配的内容都是 \w+ ,并且两个分组之间用空格隔开。
使用 groups() 可以查看匹配结果中的所有分组 :
>>> m.groups()
('Isaac', 'Newton')
也可以使用 group() 接口分别查看每一个分组,其中 group(0) 仍然表示完整的匹配结果, group(1) 表示匹配结果中的第 1 个分组, group(2) 表示第 2 个分组,以此类推:
>>> m.group(0)
'Isaac Newton'
>>> m.group(1)
'Isaac'
>>> m.group(2)
'Newton'
re.sub 匹配和替换
re.match() 函数提供了正则表达式的匹配接口, re.sub() 不光能匹配正则表达式,还能替换字符串中的结果,生成一个新的字符串。
例如把字符串中 (\w+) (\w+) 匹配到的结果替换成 Albert Einstein ,可以这样写:
>>> re.sub("(\w+) (\w+)", "Albert Einstein", "Isaac Newton, physicist")
'Albert Einstein, physicist'
re.sub 中第 1 个参数表示匹配的正则表达式,第 2 个参数表示替换表达式,第 3 个参数表示原始字符串
这里的替换表达式是手动指定的新字符串 Albert Einstein ,他和原始字符串中的内容毫不相关。如果希望复用原始字符串中的内容,那么就需要用到 re.sub 的反向引用功能了。
反向引用
反向引用指的是在指定替换结果的过程中,可以引用原始字符串中的匹配到内容。例如 (\w+) (\w+) 在原始字符串中匹配到了 Isaac Newton ,利用匹配到的结果,将结果改写为 FirstName: Isaac, LastName: Newton 。
既然需要引用,那么就得有一个表达式能够表示匹配的内容。恰好 re.sub 的匹配结果也有和 re.match 一样的分组,因此只需要在替换表达式中引用分组的结果即可。引用方式有以下几种:
\number :例如 \1 ,表示匹配结果中第 1 个分组,也就是例子中的 Isaac 部分。
\g<number> :例如 \g<1> ,和 \number 表示法一样,也代表了匹配结果中的第 1 个分组。与 \number 表示法相比, \g<number> 避免了歧义。试想,如果想用 \number 把第 1 个分组匹配到的 Isaac 替换为 Isaac0 ,那么需要用 \10 ,这里本意表示在第 1 个分组后加上 0 ,但程序会识别成第 10 个分组。而使用 \g<number> 只需要写成 \g<1>0 即可。
回到开始的例子中,将匹配结果 Isaac Newton改写为 FirstName: Isaac, LastName: Newton ,可以用以下表达式实现:
>>> re.sub("(\w+) (\w+)", "FirstName: \g<1>, LastName: \g<2>", "Isaac Newton, physicist")
'FirstName: Isaac, LastName: Newton, physicist'
参考
re — Regular expression operations
Python re(gex)? -- Groupings and backreferences
来源:https://juejin.cn/post/6981669149407707150


猜你喜欢
- 一、普通用法 (手动调整size)view()相当于reshape、resize,重新调整Tensor的形状。import torcha1
- 1、下载安装好PyCharm 专业版后打开或者新建一个Python项目,找到View导航栏,如下图:在Tool Windows下可以找到Sc
- 1. 训练运行时候指定GPU运行时候加一行代码:CUDA_VISIBLE_DEVICES=1 python train.py2. 运行过程中
- 加速运动,即一个物体运动时速度越来越快;减速运动,即一个物体运动时速度越来越慢。现在用Javascript来模拟这两个效果,原理就是用set
- 项目中我们可能会碰到导出Excel文件的需求,一般后台管理系统中居多,将table中展示的数据导出保存到本地。当然我们也可以通过一些处理来修
- 作为站长而言,有时候我们可能会碰到更换服务器或者为网站做一个整体布局修改和升级,我们首先需要做的就是对数据库和整个wordpress网站的
- 1)正则表达式的使用。 #正则表达式的模块 import re #正则表达式 rePattern = '.*[0-9]{4}'
- 如果直接使用base64_encode和base64_decode方法的话,生成的字符串可能不适用URL地址。下面的方法可以解决该问题:UR
- 方法1: 用SET PASSWORD命令MySQL -u rootmysql> SET PASSWORD FOR 'root&
- python基础pandas的drop()用法做数据处理得时候用到了pandas,体验不错,记录如下:import pandas as pd
- 首先看看如何快速查看剩余火车票?当你想查询一下火车票信息的时候,你还在上12306官网吗?或是打开你手机里的APP?下面让我们来用Pytho
- 什么是触发器MySQL的触发器(trigger)和存储过程一样,都是嵌入到MySQL中的一段程序。触发器是由事件来触发某个操作,这些事件包括
- PDOStatement::rowCountPDOStatement::rowCount — 返回受上一个 SQL 语句影响的行数(PHP
- 用户登录验证脚本,Chkpwd.asp<% '=======用户登录验证脚本======= '如果尚未定义Passed
- 我们在用Firefox上一些网站会看到这样的显示:现在时间是:108年1月26日而IE浏览器的话就显示正常的:现在时间是:2008年1月26
- 注:本文档做了两个MYSQL实例,多个实例方法以此类推LINUX操作系统:centOS6.3 64bit(安装了系统默认开发包)数据库一:M
- 介绍在Python语言中最常见的括号有三种,分别是:小括号()、中括号[]、花括号{};其作用也不相同,分别用来代表不同的Python基本内
- 不说什么,先上代码这里先求解形如的微分方程1.欧拉法def eluer(rangee,h,fun,x0,y0):
- 高可用架构对于互联网服务基本是标配,无论是应用服务还是数据库服务都需要做到高可用。虽然互联网服务号称7*24小时不间断服务,但多多少少有一些
- HTML转PDF:1.页面底层实现——Vue:最低兼容ie102.实现思路:1> 使用html2canvas.js将网页转换为图片2&