Python使用re模块实现正则表达式操作指南
作者:ζ小菜鸡 发布时间:2022-03-14 18:11:11
一、前言
在Python提供了re模块,用于实现正则表达式的操作。在实现时,可以使用re模块提供的方法(如,search()、match()、findall()等)进行字符串处理,也可以先使用re模块的compile()方法将模式字符串转换为正则表达式对象,然后再使用该正则表达式对象的相关方法来操作字符串。
如果使用re模块时,未将其引入,将抛出异常如图所示:
二、匹配字符串
匹配字符串可以使用re模块提供的match()、seardch()和findall()等方法。
1.使用match()方法进行匹配
match()方法用于从字符串的开始处进行匹配,如果在起始位置匹配成功,则返回Match对象,否则返回None,语法格式如下:
re.match(pattern, string, [flags])
参数说明:
pattern:表示模式字符串,由要匹配的正则表达式转换而来
string:表示要匹配的字符串
flags:可选参数,表示标志位,用于控制匹配方式,如是否区分字母大小写。常用的标志如表所示:
标志 | 说明 |
---|---|
A或ASCII | 对于\w、\W、\b、\B、\d、\D、\s和\S只进行ASCII匹配(仅适用于Python3.X) |
I或IGNORECASE | 执行不区分字母大小写的匹配 |
M或MULTILINE | 将^和$用于包括整个字符串的开始和结尾的每一行(默认情况下,仅适用于整个字符串的开始和结尾处) |
S或DOTALL | 适用(.)字符匹配所有字符,包括换行符 |
X或VERBOSE | 忽略模式字符串中未转义的空格和注释 |
例如,匹配字符串是否以“mr_”开头,不区分字母大小写,代码如下:
import re
pattern = r"mr_\w+" #模式匹配字符串
string = "MR_SHOP mr_shop" #要匹配的字符串
match = re.match(pattern,string,re.I)#匹配字符,不区分大小写
print(match) #输出匹配结果
string = "项目名称MR_SHOP mr_shop"
match = re.match(pattern,string,re.I)#匹配字符,不区分大小写
print(match) #输出匹配结果
执行结果如下:
从上面执行结果中可以看出,字符串"MR_SHOP"是以“mr_”开头,所以返回一个match对象,而字符串“项目名称MR_SHOP”不是以“mr_”开头,将返回“None”。这是因为match()方法从字符串的开始位置开始匹配,当第一个字母不符合条件时,则不再进行匹配,直接返回None。
Match对象中包含了匹配值得位置和匹配数据,其中:
要获取匹配值的起始位置可以使用Match对象的start()方法;
要获得匹配值的结束位置可以使用end()方法;
通过span()方法可以返回匹配位置元组;
通过string属性可以获取要匹配的字符串
代码如下:
import re
pattern = r"mr_\w+" # 模式匹配字符串
string = "MR_SHOP mr_shop" # 要匹配的字符串
match = re.match(pattern, string, re.I) # 匹配字符,不区分大小写
print("匹配值的起始位置", match.start())
print("匹配值的结束位置", match.end())
print("匹配位置元组", match.span())
print("要匹配的字符串", match.string)
print("匹配数据", match.group())
执行结果如下:
2.使用search()方法进行匹配
search()方法用于在整个字符串搜索第一个匹配值,如果匹配成功,则返回match对象,否则返回None,语法格式如下:
re.search(pattern, string, [flags])
参数说明:
pattern:表示模式字符串,由要匹配的正则表达式转换而来
string:表示要匹配的字符串
flags:可选参数,表示标志位,用于控制匹配方式,如是否区分字母大小写。
例如,所示一个以“mr_”开头的字符串,不区分大小写,代码如下:
import re
pattern = r"mr_\w+" #模式匹配字符串
string = "MR_SHOP mr_shop" #要匹配的字符串
match = re.search(pattern,string,re.I)#匹配字符,不区分大小写
print(match) #输出匹配结果
string = "项目名称MR_SHOP mr_shop"
match = re.search(pattern,string,re.I)#匹配字符,不区分大小写
print(match) #输出匹配结果
执行结果如下:
从上面运行结果中可以看出,search()方法不仅仅是在字符串的起始位置搜索,其他位置有符合的匹配也可以。
3.使用findall()方法进行匹配
findall()方法用于整个字符串中的搜索所有符合正则表达式的字符串,并以列表的形式返回,如果匹配成功,则返回包含匹配结构的列表,否则返回空列表。其语法格式如下:
re.findall(pattern, string, [flags])
参数说明:
pattern:表示模式字符串,由要匹配的正则表达式转换而来
string:表示要匹配的字符串
flags:可选参数,表示标志位,用于控制匹配方式,如是否区分字母大小写。
例如,所示一个以“mr_”开头的字符串,不区分大小写,代码如下:
import re
pattern = r"mr_\w+" #模式匹配字符串
string = "MR_SHOP mr_shop" #要匹配的字符串
match = re.findall(pattern,string,re.I)#匹配字符,不区分大小写
print(match) #输出匹配结果
string = "项目名称MR_SHOP mr_shop"
match = re.findall(pattern,string,re.I)#匹配字符,不区分大小写
print(match) #输出匹配结果
执行结果如下:
如果在指定的模式字符串中,包含分组,则返回与分组匹配的文本列表。例如:
import re
pattern = r"[1-9]{1,3}(\.[0-9]{1,3}){3}" # 模式字符串
str1 = "127.0.0.1 192.168.1.66" # 要匹配的字符串
match = re.findall(pattern, str1) # 进行模式匹配
print(match)
执行结果如下:
从上面结果中可以看出,并没有得到匹配的IP地址,这是因为在模式字符串中出现了分组,所以得到的结果是根据分组进行匹配的结果,即“(.[0-9]{1,3})”匹配的结果。如果想获取整个模式字符串的匹配,可以将整个模式字符串使用一对小括号进行分组,然后再获取结果时,只取返回值列表的每个元素(是一个元组)的第1个元素。代码如下:
import re
pattern = r"([1-9]{1,3}(\.[0-9]{1,3}){3})" # 模式字符串
str1 = "127.0.0.1 192.168.1.66" # 要匹配的字符串
match = re.findall(pattern, str1) # 进行模式匹配
for item in match:
print(item[0])
执行结果如下:
三、替换字符串
sub()方法用于实现字符串替换,语法格式如下:
re.sub(pattern, sep1, string, count, flags)
参数说明:
pattern:表示模式字符串,由要匹配的正则表达式转换而来
sep1:表示替换的字符串
string:表示查找要被替换的原始字符串
count:可以参数,表示模式匹配后替换
flags:可选参数,表示标志位,用于控制匹配方式,如是否区分字母大小写。
import re
pattern = r"1[34578]\d{9}" # 定义要替换的模式字符串
string = "中奖号码为:84978981 联系电话为:13611111111"
result = re.sub(pattern, "1xxxxxxxxxx", string)
print(result)
执行结果如下:
四、使用正则表达式分割字符串
splist()方法用于实现根据正则表达式分割字符串,并以列表的形式返回,其作用与字符串对象的splist()方法类似,所不同的就是分割字符由模式字符串指定。语法格式如下:
re.splist(pattern, string, [maxsplist], [flags])
参数说明:
pattern:表示模式字符串,由要匹配的正则表达式转换而来
string:表示要匹配的字符串
maxsplist:可选参数,表示最大的拆分次数。
flags:可选参数,表示标志位,用于控制匹配方式,如是否区分字母大小写。
例如:从给定的URL地址中提取出请求地址和各个参数,代码如下:
import re
pattern = r"[?|&]" # 定义分割符
url = 'http://www.baidu.com/login.jsp?username="mr"&pwd="mrsoft"'
result = re.split(pattern, url) # 分割字符串
print(result)
执行结果如下:
总结
来源:https://blog.csdn.net/weixin_45191386/article/details/123930454
猜你喜欢
- blob对象介绍一个 Blob对象表示一个不可变的, 原始数据的类似文件对象。Blob表示的数据不一定是一个JavaScript原生格式 b
- 当我们使用一个数据库时,总希望数据库的内容是可靠的、正确的,但由于计算机系统的故障(包括机器故障、介质故障、误操作等),数据库有时也可能遭到
- 1.可能是/usr/local/mysql/data/rekfan.pid文件没有写的权限解决方法 :给予权限,执行 “chown -R m
- 在Jupyter Notebook上使用Python+opencv实现如下简单车牌字符切割。关于opencv库的安装可以参考:Python下
- 本文实例讲述了mysql 数据库备份的多种实现方式。分享给大家供大家参考,具体如下:一、使用mysqldump进行备份1、完整备份所有数据库
- 一,分析代码运行时间第1式,测算代码运行时间平凡方法快捷方法(jupyter环境)第2式,测算代码多次运行平均时间平凡方法快捷方法(jupy
- 一、前言在多进程中,每个进程之间是什么关系呢?其实每个进程都有自己的地址空间、内存、数据栈以及其他记录其运行状态的辅助数据。下面通过一个例子
- <html xmlns="http://www.w3.org/1999/xhtml"> <head&g
- 目录什么是时间序列?如何在Python中绘制时间序列数据?时间序列的要素是什么?如何分解时间序列?经典分解法如何获得季节性调整值?STL分解
- “站内信”不同于电子邮件,电子邮件通过专门的邮件服务器发送、保存。而“站内信”是系统内的消息,说白了,“站内信”的实现,就是通过数据库插入记
- 引言Go 语言中数组可以存储同一类型的数据,但在结构体中我们可以为不同项定义不同的数据类型结构体是由一系列具有相同类型或不同类型的数据构成的
- 前言 :上一篇文章:如何使用python生成大量数据写入es数据库并查询操作模拟学生个人信息写入es数据库,包括姓名、性别、年龄、特点、科目
- 模拟栈Stack() 创建一个空的新栈。 它不需要参数,并返回一个空栈。push(item)将一个新项添加到栈的顶部。它需要 item 做参
- 通常来说,javascript中的对象就是一个指向prototype的指针和一个自身的属性列表。javascript创建对象时采用了写时复制
- 1. vscode相关配置w3c school 手册: https://www.w3school.com.cn/html/inde
- 【OpenCV】⚠️高手勿入! 半小时学会基本操作⚠️图像处理概述OpenCV 是一个跨平台的计算机视觉库, 支持多语言, 功能强大. 今天
- 一、网络请求在uni中可以调用uni.request方法进行请求网络请求需要注意的是:在小程序中网络相关的 API 在使用前需要配置域名白名
- 一、切片切片:指对操作的对象截取其中一部分的操作,字符串、列表、元组都支持切片操作语法:序列[开始位置下标:结束位置下标:步长] ,不包含结
- 工程结构views.pydef home(request): TutorialList = ["HTML",
- 今天来聊一下 Go 如何使用 set,本文将会涉及 set 和 bitset 两种数据结构。Go 的数据结构Go 内置的数据结构并不多。工作