python re库的正则表达式入门学习教程
作者:唐玮 发布时间:2023-05-31 13:03:56
简介
正则表达式本身是一种小型的、高度专业化的编程语言,而在python中,通过内嵌集成re模块,程序媛们可以直接调用来实现正则匹配。正则表达式模式被编译成一系列的字节码,然后由用C编写的匹配引擎执行。
下面话不多说了,来一起看看详细的介绍吧
1. 安装
默认已经安装好了python环境了
re库是python3的核心库,不需要pip install,直接import就行
2. 最简单的模式
字符本身就是最简单的模式
比如:'A', 'I love you', 'test'
然是注意在定义模式字符串的时候,在前面加上r,它的作用是告诉编译器,接下来的字符串是单纯的字符串,请不要转变为转义字符。
例子
import re
pattern = r'Cookie'
sequence = 'Cookie'
re.match(pattern, sequence)
<re.Match object; span=(0, 6), match='Cookie'>
re.match()是常用的函数,如果匹配,返回的是re.Match object.一个库内置的对象。如果没有匹配返回的是None
3. 通配符
在正则表达式中,有些字符是有特殊意义的(不是转义字符的那套规则),下面介绍常用的通配符字符
1)".":点,代表任何字符,除了换行(newline)
re.search(r'Co.k.e', 'Cookie').group()
其中group()函数返回匹配的字符,返回类型是str
'Cookie'
2) "\w" 反斜杠小写w,代表任何单个字母,数字,下划线
re.search(r'Co\wk\we', 'Cookie').group()
'Cookie'
3) "\W" 反斜杠大写W,代表任何2)中没有代表的字符
re.search(r'C\Wke', 'C@ke').group()
'C@ke'
4) "\s" 反斜杠小写s,代表一些空格字符,比如空格(space),换行(new line),跳格键(tab),回车(return)
re.search(r'Eat\scake', 'Eat cake').group()
'Eat cake'
5) "\S" 反斜杠大写S,代表任何4)中没有代表的字符
re.search(r'Cook\Se', 'Cookie').group()
'Cookie'
6) "\t" 反斜杠小写t,代表跳格键(tab)
7) "\n" 反斜杠小写t,代表换行(new line)
8) "\r" 反斜杠小写t,代表回车(return)
9) "\d" 反斜杠小写d,代表单个数字0-9
re.search(r'c\d\dkie', 'c00kie').group()
'c00kie'
10) "^" 这个键不知道叫什么,代表从字符开头要匹配
re.search(r'^Eat', 'Eat cake').group()
'Eat'
11) "$" 美元符号,代表从字符结尾要匹配
re.search(r'cake$', 'Eat cake').group()
'cake'
12) "[abc]" 中括号中任意字符,代表匹配其中任意字符
常用的方式,比如[a-zA-Z0-9],或者如果中括号中第一个字符是"^",代表不是这个范围内的字符
re.search(r'Number: [0-6]', 'Number: 5')
<re.Match object; span=(0, 9), match='Number: 5'>
再来个不在范围内的
re.search(r'Number: [^0-6]', 'Number: 7')
<re.Match object; span=(0, 9), match='Number: 7'>
4. 重复
第三部分介绍了单个通配符,那么怎么定义一串通配符呢,利用一些重复的标志
1) "+" 加号,表示在它左边的字符出现一次或者多次
re.search(r'Co+kie', 'Cooookie')
<re.Match object; span=(0, 8), match='Cooookie'>
2) "*" 乘号,表示在它左边的字符出现零次或者多次
re.search(r'Ca*o*kie', 'Caokie').group()
'Caokie'
3) "?" 问号,表示在它左边的字符出现零次或者一次
re.search(r'Colou?r', 'Color').group()
'Color'
4) {x} 大括号加数字,重复确切几次
5) {x,} 重复至少几次
6) {x, y} 重复至少x次,不超过y次
re.search(r'\d{9,10}', '0987654321').group()
'0987654321'
5. 分组
比如说想定义一个email的格式,@之前的是一个规则,之后的是一个规则,那么通过()圆括号来分为两组,分别定义在一个正则表达式中
然后如果满足的话,通过group()函数指定返回哪一组的结果
比如
email_address = 'Please contact us at: support@datacamp.com'
match = re.search(r'([\w+-]+)@([\w\.-]+)', 'tw7613781@gmail.com')
if match:
print(match.group()) # The whole matched text
print(match.group(1)) # The username (group 1)
print(match.group(2)) # The host (group 2)
tw7613781@gmail.com
tw7613781
gmail.com
@前为第一部分,\w代表代表任何单个字母,数字,下划线,上面已经介绍了,然后就是"\w"和"+"和"-"随便哪一个至少一个或者多个
@后为第二部分,其余一样,就是多了个"\.",因为"."代表的是任意字符了,如果想表达真正的点,用"\."来表示。
6. python库函数re的常用函数
1) re.search(pattern, string)和re.match(pattern, string)
区别在于search能从string中寻找任何满足pattern的substring,但是match必须从头开始
pattern = "cookie"
sequence = "Cake and cookie"
re.search(pattern, sequence).group()
'cookie'
如果是match会返回None
2) re.findall(pattern, string)
寻找string所有满足pattern的substring,然后以list的形式返回
email_address = "Please contact us at: support@datacamp.com, xyz@datacamp.com"
#'addresses' is a list that stores all the possible match
addresses = re.findall(r'[\w\.-]+@[\w\.-]+', email_address)
for address in addresses:
print(address)
support@datacamp.com
xyz@datacamp.com
3) re.compile(pattern)
通过compile函数会生成一个pattern对象,这个pattern对象可以直接使用match,search等函数
In: pattern = re.compile(r"cookie")
In: pattern
Out: re.compile(r'cookie', re.UNICODE)
In: pattern.search('cookie')
Out: <re.Match object; span=(0, 6), match='cookie'>
学习材料
https://www.datacamp.com/community/tutorials/python-regular-expression-tutorial
来源:https://www.cnblogs.com/wtang/p/10490046.html


猜你喜欢
- 前两天写了一篇《浅谈网站用户粘性的含义》的文章,有些个别网友问可否谈谈怎么样加强用户粘性的问题?虽然对此本人没有系统的理论做以支撑,但是既然
- 老板由于事务繁忙无法经常亲临教研室,于是让我搞个监控系统,让他在办公室就能看到教研室来了多少人。o(>﹏<)o|||最初我的想法
- 1. 简介在 Go 语言中,new 和 make 是用于创建对象的两个内建函数,它们的使用方式和作用有所不同。正确理解 new 和 make
- CocosCreator在1.8版本开始,就支持一键发布微信小程序,下面是详细的发布步骤:1、在微信公众平台下载微信开发者工具 地
- 本文实例讲述了Python中操作符重载用法。分享给大家供大家参考,具体如下:类可以重载python的操作符操作符重载使我们的对象与内置的一样
- 前段时间公司数据库服务器崩溃启动不起来,经过我初步排查是/home目录挂载不上导致启动不起来,虽然通过注释/etc/fstab中的挂载信息,
- 一直以来都是用python脚本,执行的时候就是在终端直接命令执行,或者直接输入代码执行,最近为了方便他人使用,想做个界面,可以通过里面的控件
- 对于任何JavaScript程序,当程序开始运行时,JavaScript解释器都会初始化一个全局对象以供程序使用。这个JavaScript自
- 引言“ 这是MySQL系列笔记的第七篇,文章内容均为本人通过实践及查阅资料相关整理所得,可用作新手入门指南,或
- ORDER BY _column1, _column2; /* _column1升序,_column2升序 */ ORDER BY _col
- import timenow_time = time.time()print(now_time)结果是1594
- 分区视图联接来自一组成员的水平分区数据,使数据看起来象来自同一张表。SQL Server 2000 区分本地分区视图和分布式分区视图。在本地
- 浏览器经常Cache你的页面,这是一个很麻烦的问题,下面先提出几种方案来解决一般的问题:(把下面的代码加入到asp程序的最开始位置)<
- 日常小程序经常需要分页查询的功能,本篇我们讲解一下低代码中如何实现分页查询的功能。要自己开发分页功能,可以先参考官方的方法分页查询我们一般是
- 如图,今天跑代码的事后遇到的问题,pycharm导入我自己写的各种函数.py文件时有红色标注,显示“no moudle balabala…”
- 本文实例讲述了Python安装Flask环境及简单应用。分享给大家供大家参考,具体如下:安装环境使用虚拟环境安装Flask,可以避免包的混乱
- 一:绑定方法:其特点是调用方本身自动作为第一个参数传入1.绑定到对象的方法:调用方是一个对象,该对象自动传入2.方法绑定到类:调用方是类,类
- 本文研究的主要是Python进程间通信Queue的相关实例,具体如下。1.Queue使用方法:Queue.qsize():返回当前队列包含的
- 在大多数情况下,攻击者可以通过定位域管理员所登录的服务器,利用漏洞获取服务器system权限,找到域管理的账号、进程或是身份验证令牌,从而获
- 本文介绍了Python3网络爬虫之使用User Agent和 * 隐藏身份,分享给大家,具体如下:运行平台:WindowsPython版本