Java正则表达式之Pattern类实例详解
作者:挖坑埋你 发布时间:2023-11-07 10:13:33
前言
这个系列的文章我们使用以下的顺序进行讲解:
Pattern 详解;
Matcher 详解;
正则表达式语法详解。
接下来先来介绍 Pattern 类。
在Java中,java.util.regex包定义了正则表达式使用到的相关类,其中最主要的两个类为:Pattern、Matcher:
Pattern 编译正则表达式后创建一个匹配模式;
Matcher 使用Pattern实例提供的正则表达式对目标字符串进行匹配,是真正影响搜索的对象。。
另加一个新的例外类,PatternSyntaxException,当遇到不合法的搜索模式时,会抛出例外。
Pattern 概述
声明:public final class Pattern implements java.io.Serializable
Pattern 类有final修饰,可知他不能被子类继承。
含义:模式类,正则表达式的编译表示形式。
注意:此类的实例是不可变的,可供多个并发线程安全使用。
Pattern 匹配模式(Pattern flags)
compile( )方法有一个版本,它需要一个控制正则表达式的匹配行为的参数:
Pattern Pattern.compile(String regex, int flag)
flag 的取值范围
字段 | 说明 |
---|---|
Pattern.UNIX_LINES | unix行模式,大多数系统的行都是以\n结尾的,但是少数系统,比如Windows,却是以\r\n组合来结尾的,启用这个模式之后,将会只以\n作为行结束符,这会影响到^、$和点号(点号匹配换行符)。 通过嵌入式标志表达式 (?d) 也可以启用 Unix 行模式。 |
Pattern.CASE_INSENSITIVE | 默认情况下,大小写不敏感的匹配只适用于US-ASCII字符集。这个标志能让表达式忽略大小写进行匹配。要想对Unicode字符进行大小不明感的匹配,只要将UNICODE_CASE与这个标志合起来就行了。 通过嵌入式标志表达式(?i)也可以启用不区分大小写的匹配。 指定此标志可能对性能产生一些影响。 |
Pattern.COMMENTS ⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢⇢ | 这种模式下,匹配时会忽略(正则表达式里的)空格字符(不是指表达式里的”//s”,而是指表达式里的空格,tab,回车之类)和注释(从#开始,一直到这行结束)。 通过嵌入式标志表达式(?x) 也可以启用注释模式。 |
Pattern.MULTILINE | 默认情况下,输入的字符串被看作是一行,即便是这一行中包好了换行符也被看作一行。当匹配“^”到“$”之间的内容的时候,整个输入被看成一个一行。启用多行模式之后,包含换行符的输入将被自动转换成多行,然后进行匹配。 通过嵌入式标志表达式 (?m) 也可以启用多行模式。 |
Pattern.LITERAL | 启用字面值解析模式。 指定此标志后,指定模式的输入字符串就会作为字面值字符序列来对待。输入序列中的元字符或转义序列不具有任何特殊意义。 标志 CASE_INSENSITIVE 和 UNICODE_CASE 在与此标志一起使用时将对匹配产生影响。其他标志都变得多余了。 不存在可以启用字面值解析的嵌入式标志字符。 |
Pattern.DOTALL | 在这种模式中,表达式 .可以匹配任何字符,包括行结束符。默认情况下,此表达式不匹配行结束符。 通过嵌入式标志表达式 (?s) 也可以启用此种模式(s 是 “single-line” 模式的助记符,在 Perl 中也使用它)。 |
Pattern.UNICODE_CASE | 在这个模式下,如果你还启用了CASE_INSENSITIVE标志,那么它会对Unicode字符进行大小写不敏感的匹配。默认情况下,大小写不明感的匹配只适用于US-ASCII字符集。 指定此标志可能对性能产生影响。 |
Pattern.CANON_EQ | 当且仅当两个字符的正规分解(canonical decomposition)都完全相同的情况下,才认定匹配。比如用了这个标志之后,表达式a/u030A会匹配?。默认情况下,不考虑规范相等性(canonical equivalence)。 指定此标志可能对性能产生影响。 |
在这些标志里面,Pattern.CASE_INSENSITIVE,Pattern.MULTILINE,以及Pattern.COMMENTS是最有用的(其中Pattern.COMMENTS还能帮我们把思路理清楚,并且/或者做文档)。注意,你可以用在表达式里插记号的方式来启用绝大多数的模式。这些记号就在上面那张表的各个标志的下面。你希望模式从哪里开始启动,就在哪里插记号。
可以用OR (|)运算符把这些标志配合使用。
代码示例
多行模式:Pattern.MULTILINE 示例
我测试了一下,也就是说如果没有 MULTILINE 标志的话, ^ 和 $ 只能匹配输入序列的开始和结束;否则,就可以匹配输入序列内部的行结束符。测试代码如下:
import java.util.regex.*;
/**
* 多行模式
*/
public class ReFlags_MULTILINE {
public static void main(String[] args) {
// 注意里面的换行符
String str = "hello world\r\n" + "hello java\r\n" + "hello java";
System.out.println("===========匹配字符串开头(非多行模式)===========");
Pattern p = Pattern.compile("^hello");
Matcher m = p.matcher(str);
while (m.find()) {
System.out.println(m.group() + " 位置:[" + m.start() + "," + m.end() + "]");
}
System.out.println("===========匹配字符串开头(多行模式)===========");
p = Pattern.compile("^hello", Pattern.MULTILINE);
m = p.matcher(str);
while (m.find()) {
System.out.println(m.group() + " 位置:[" + m.start() + "," + m.end() + "]");
}
System.out.println("===========匹配字符串结尾(非多行模式)===========");
p = Pattern.compile("java$");
m = p.matcher(str);
while (m.find()) {
System.out.println(m.group() + " 位置:[" + m.start() + "," + m.end() + "]");
}
System.out.println("===========匹配字符串结尾(多行模式)===========");
p = Pattern.compile("java$", Pattern.MULTILINE);
m = p.matcher(str);
while (m.find()) {
System.out.println(m.group() + " 位置:[" + m.start() + "," + m.end() + "]");
}
}
}
===========匹配字符串开头(非多行模式)===========
hello 位置:[0,5]
===========匹配字符串开头(多行模式)===========
hello 位置:[0,5]
hello 位置:[13,18]
hello 位置:[25,30]
===========匹配字符串结尾(非多行模式)===========
java 位置:[31,35]
===========匹配字符串结尾(多行模式)===========
java 位置:[19,23]
java 位置:[31,35]
忽略大小写:Pattern.CASE_INSENSITIVE 示例
有的时候,需要进行忽略大小写的匹配。该例子实现匹配摄氏温度和华氏温度,对于以C、c、F和f结尾的温度值都能匹配。
import java.util.regex.Pattern;
public class ReFlags_CASE_INSENSITIVE {
public static void main(String[] args) {
System.out.println("===========API忽略大小写===========");
String moneyRegex = "[+-]?(\\d)+(.(\\d)*)?(\\s)*[CF]";
Pattern p = Pattern.compile(moneyRegex,Pattern.CASE_INSENSITIVE);
System.out.println("-3.33c " + p.matcher("-3.33c").matches());
System.out.println("-3.33C " + p.matcher("-3.33C").matches());
System.out.println("===========不忽略大小写===========");
moneyRegex = "[+-]?(\\d)+(.(\\d)*)?(\\s)*[CF]";
p = Pattern.compile(moneyRegex);
System.out.println("-3.33c " + p.matcher("-3.33c").matches());
System.out.println("-3.33C " + p.matcher("-3.33C").matches());
System.out.println("===========正则内部忽略大小写===========");
moneyRegex = "[+-]?(\\d)+(.(\\d)*)?(\\s)*(?i)[CF]";
p = Pattern.compile(moneyRegex);
System.out.println("-3.33c " + p.matcher("-3.33c").matches());
System.out.println("-3.33C " + p.matcher("-3.33C").matches());
System.out.println("===========内部不忽略大小写===========");
moneyRegex = "[+-]?(\\d)+(.(\\d)*)?(\\s)*[CF]";
p = Pattern.compile(moneyRegex);
System.out.println("-3.33c " + p.matcher("-3.33c").matches());
System.out.println("-3.33C " + p.matcher("-3.33C").matches());
}
}
===========API忽略大小写===========
-3.33c true
-3.33C true
===========不忽略大小写===========
-3.33c false
-3.33C true
===========正则内部忽略大小写===========
-3.33c true
-3.33C true
===========内部不忽略大小写===========
-3.33c false
-3.33C true
启用注释:Pattern.COMMENTS 示例
启用注释,开启之后,正则表达式中的空格以及#号行将被忽略。
import java.util.regex.Pattern;
public class ReFlags_COMMENTS {
public static void main(String[] args) {
System.out.println("===========API启用注释===========");
String comments = " (\\d)+#this is comments.";
Pattern p = Pattern.compile(comments, Pattern.COMMENTS);
System.out.println("1234 " + p.matcher("1234").matches());
System.out.println("===========不启用注释===========");
comments = " (\\d)+#this is comments.";
p = Pattern.compile(comments);
System.out.println("1234 " + p.matcher("1234").matches());
System.out.println("===========正则启用注释===========");
comments = "(?x) (\\d)+#this is comments.";
p = Pattern.compile(comments);
System.out.println("1234 " + p.matcher("1234").matches());
System.out.println("===========不启用注释===========");
comments = " (\\d)+#this is comments.";
p = Pattern.compile(comments);
System.out.println("1234 " + p.matcher("1234").matches());
}
}
===========API启用注释===========
1234 true
===========不启用注释===========
1234 false
===========正则启用注释===========
1234 true
===========不启用注释===========
1234 false
可以看到,#号到行尾的注释部分和前面的空白字符都被忽略了。正则表达式内置的启用注释为(?x)。
启用 dotall 模式:Pattern.DOTALL 示例
启用dotall模式,一般情况下,点号(.)匹配任意字符,但不匹配换行符,启用这个模式之后,点号还能匹配换行符。
import java.util.regex.Pattern;
public class ReFlags_DOTALL {
public static void main(String[] args) {
System.out.println("===========API启用DOTALL===========");
String dotall = "<xml>(.)*</xml>";
Pattern p = Pattern.compile(dotall, Pattern.DOTALL);
System.out.println("<xml>\\r\\n</xml> " + p.matcher("<xml>\r\n</xml>").matches());
System.out.println("===========不启用DOTALL===========");
dotall = "<xml>(.)*</xml>";
p = Pattern.compile(dotall);
System.out.println("<xml>\\r\\n</xml> " + p.matcher("<xml>\r\n</xml>").matches());
System.out.println("===========正则启用DOTALL===========");
dotall = "(?s)<xml>(.)*</xml>";
p = Pattern.compile(dotall);
System.out.println("<xml>\\r\\n</xml> " + p.matcher("<xml>\r\n</xml>").matches());
System.out.println("===========不启用DOTALL===========");
dotall = "<xml>(.)*</xml>";
p = Pattern.compile(dotall);
System.out.println("<xml>\\r\\n</xml> " + p.matcher("<xml>\r\n</xml>").matches());
}
}
===========API启用DOTALL===========
<xml>\r\n</xml> true
===========不启用DOTALL===========
<xml>\r\n</xml> false
===========正则启用DOTALL===========
<xml>\r\n</xml> true
===========不启用DOTALL===========
<xml>\r\n</xml> false
平白字符模式 模式:Pattern.LITERAL 示例
启用这个模式之后,所有元字符、转义字符都被看成普通的字符,不再具有其他意义。
import java.util.regex.Pattern;
public class ReFlags_LITERAL {
public static void main(String[] args) {
System.out.println(Pattern.compile("\\d", Pattern.LITERAL).matcher("\\d").matches());// true
System.out.println(Pattern.compile("\\d", Pattern.LITERAL).matcher("2").matches());// false
System.out.println(Pattern.compile("(\\d)+", Pattern.LITERAL).matcher("1234").matches());// false
System.out.println(Pattern.compile("(\\d)+").matcher("1234").matches());// true
System.out.println(Pattern.compile("(\\d){2,3}", Pattern.LITERAL).matcher("(\\d){2,3}").matches());// true
}
}
附:贪婪匹配与懒惰匹配
考虑这个表达式:a.*b,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索aabab的话,它会匹配整个字符串aabab。这被称为贪婪匹配。
有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。前面给出的限定符都可以被转化为懒惰匹配模式,只要在它后面加上一个问号?。这样.*?就意味着匹配任意数量的重复,但是在能使整个匹配成功的前提下使用最少的重复。
a.*?b匹配最短的,以a开始,以b结束的字符串。如果把它应用于aabab的话,它会匹配aab和ab。
public static void main(String[] args) {
String str = "北京市(海淀区)(朝阳区)";
String paternStr = ".*(?=\\()";
Pattern pattern = Pattern.compile(paternStr);
Matcher matcher = pattern.matcher(str);
if (matcher.find()) {
System.out.println(matcher.group(0));
}
}
上述方法的输出为:北京市(海淀区)
public static void main(String[] args) {
String str = "北京市(海淀区)(朝阳区)";
String paternStr = ".*?(?=\\()";
Pattern pattern = Pattern.compile(paternStr);
Matcher matcher = pattern.matcher(str);
if (matcher.find()) {
System.out.println(matcher.group(0));
}
}
上述方法输出:北京市
来源:https://blog.csdn.net/liupeifeng3514/article/details/80030360


猜你喜欢
- IF Exists(Select 1 From sysobjects Where Name='sp_search' And
- 如果你有过Web编程的经验,那么或多或少都听说过或者使用过模板。简而言之,模板是可用于创建动态内容的文本文件。例如,你有一个网站导航栏的模板
- 这篇文章主要介绍了python列表推导式入门学习解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友
- 拓扑排序几乎在所有的项目,甚至日常生活,待完成的不同任务之间通常都会存在着某些依赖关系,这些依赖关系会为它们的执行顺序行程表部分约束。对于这
- 定义计算N的阶乘的函数1)使用循环计算阶乘def frac(n): r = 1 if n<=1:
- 一、切片切片:指对操作的对象截取其中一部分的操作,字符串、列表、元组都支持切片操作语法:序列[开始位置下标:结束位置下标:步长] ,不包含结
- python中使用requests模块http请求时,发现中文参数不会自动的URL编码,并且没有找到类似urllib (python3)模块
- 窗口的透视变换效果 当我们点击Win10的UWP应用中的小部件时,会发现小部件会朝着鼠标点击位置凹陷下去,而且不同的点击位置对应着不同的
- 使用matplotlib.tri.CubicTriInterpolator.演示变化率计算:完整实例:from matplotlib.tri
- 问题介绍棋盘覆盖问题,是一种编程问题。如何应用分治法求解棋盘覆盖问题呢?分治的技巧在于如何划分棋盘,使划分后的子棋盘的大小相同,并且每个子棋
- 首先停止mysql服务: root@webserver:/home/webmaster# service mysql stop 接着采用忽略
- function cal_pace(d,h,m,s){ var distance = d; var hours = h;
- 前言:谈到Update 语句大家可能不会陌生,很多情况下我们都会使用它来更新table中的记录。一般而言我们会使用innodb 的存储引擎,
- 在讲样式表开发管理之前,我想插播一个小知识。前几天看web标准设计组里,看到龍佑康同学问到关于 block 和 inline 的区别。记得以
- 序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推。Pyt
- UPA2008于2008年10月24日在深圳举行,托哥、绿桔应邀主持了一场圆桌会和一场工作坊,以下是圆桌会议《商业价值与用户价值的平衡》的现
- 这篇文章主要介绍了python3 pathlib库Path类方法总结,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习
- 在使用javascript编程时浏览器中经常会遇到的两个麻烦,下面提供两个函数解决方式做参考,并提供一个demo让你更直观地了解我所说的这两
- 本文实例讲述了js表格排序的方法。分享给大家供大家参考。具体如下:<html><head><title>
- 作为一名数据库管理员,在进行代码迁移之前,我总是尽力给提交于开发环境的代码一个完整的面貌。但是,不得不承认,我不能保证不发生任何可能破坏开发