Java正则表达式匹配字符串并提取中间值的方法实例
作者:Moshow郑锴 发布时间:2022-02-06 11:22:43
前言
有时候正则表达式不只是匹配一下什么数字/邮箱/身份证/日期等等,还需要匹配某一段文字,并按照既定格式提取其中的某些值.
场景一:提取SAML2报文
SAML2报文内容如下,从中提取对应的attribute name和value.
<saml:AttributeStatement>
<saml:Attribute Name="mail">
<saml:AttributeValue xmlns:xs="http://www.w3.org/2001/XMLSchema" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:type="xs:string">zhengkai.blog.csdn.net</saml:AttributeValue>
</saml:Attribute>
<saml:Attribute Name="cn">
<saml:AttributeValue xmlns:xs="http://www.w3.org/2001/XMLSchema" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:type="xs:string">amAdmin</saml:AttributeValue>
</saml:Attribute>
</saml:AttributeStatement>
show time
public static void main(String[] args) {
String content = "";
content = "<saml:AttributeStatement>";
content += " <saml:Attribute Name=\"mail\">";
content += " <saml:AttributeValue xmlns:xs=\"http://www.w3.org/2001/XMLSchema\" xmlns:xsi=\"http://www.w3.org/2001/XMLSchema-instance\" xsi:type=\"xs:string\">zhengkai.blog.csdn.net</saml:AttributeValue>";
content += " </saml:Attribute>";
content += " <saml:Attribute Name=\"cn\">";
content += " <saml:AttributeValue xmlns:xs=\"http://www.w3.org/2001/XMLSchema\" xmlns:xsi=\"http://www.w3.org/2001/XMLSchema-instance\" xsi:type=\"xs:string\">amAdmin</saml:AttributeValue>";
content += " </saml:Attribute>";
content += "</saml:AttributeStatement>";
String pattern = "\\<saml\\:Attribute Name=\\\"(?<scope>.*?)\\\"\\>[\\s\\S]*?\\<saml\\:AttributeValue[\\s\\S]*?\\>(?<value>.*?)\\<\\/saml\\:AttributeValue\\>[\\s\\S]*?\\<\\/saml\\:Attribute\\>";
Pattern r = Pattern.compile(pattern);
Matcher matcher = r.matcher(saml2attributeString);
while (matcher.find()){
String attributeName = matcher.group("scope");
String attributeValue = matcher.group("value");
System.out.println("attributeName->"+attributeName +",attributeValue->"+attributeValue );
}
}
控制台输出
$ attributeName->mail,attributeValue->zhengkai.blog.csdn.net
$ vattributeName->cn,attributeValue->amAdmin
解析
\\<saml\\:Attribute Name=\\\"(?<scope>.*?)\\\"\\>[\\s\\S]*?\\<saml\\:AttributeValue[\\s\\S]*?\\>(?<value>.*?)\\<\\/saml\\:AttributeValue\\>[\\s\\S]*?\\<\\/saml\\:Attribute\\>
(?<scope>.*?)是用于标识scope的方式,表示夹在中间的字符串都叫scope,可以通过matcher.group("scope")提取。
所有非正则的符号都需要转义,所以你会看到很多\\<或者换\\"之类的\\
[\\s\\S]*? 是用来匹配任意字符,表示在前后有界定的情况下(例如夹在<xxx></xxx>中间的字符串),可以忽略那些不规则字符串的匹配。
场景2:提取sql中的表名和字段
来自github网友@ydq 给SpringBootCodeGenerator贡献的正则表达式,非常不错,值得深刻学习.
//匹配整个ddl,将ddl分为表名,列sql部分,表注释
private static final Pattern DDL_PATTERN = Pattern.compile("\\s*create\\s+table\\s+(?<tableName>\\S+)[^\\(]*\\((?<columnsSQL>[\\s\\S]+)\\)[^\\)]+?(comment\\s*(=|on\\s+table)\\s*'(?<tableComment>.*?)'\\s*;?)?$", Pattern.CASE_INSENSITIVE);
//匹配列sql部分,分别解析每一列的列名 类型 和列注释
private static final Pattern COL_PATTERN = Pattern.compile("\\s*(?<fieldName>\\S+)\\s+(?<fieldType>\\w+)\\s*(?:\\([\\s\\d,]+\\))?((?!comment).)*(comment\\s*'(?<fieldComment>.*?)')?\\s*(,|$)", Pattern.CASE_INSENSITIVE);
public static void parse(String sql){
Matcher matcher = DDL_PATTERN.matcher(sql);
if (matcher.find()){
String tableName = matcher.group("tableName");
String tableComment = matcher.group("tableComment");
System.out.println(tableName + "\t\t" + tableComment);
System.out.println("==========");
String columnsSQL = matcher.group("columnsSQL");
if (columnsSQL != null && columnsSQL.length() > 0){
Matcher colMatcher = COL_PATTERN.matcher(columnsSQL);
while (colMatcher.find()){
String fieldName = colMatcher.group("fieldName");
String fieldType = colMatcher.group("fieldType");
String fieldComment = colMatcher.group("fieldComment");
if (!"key".equalsIgnoreCase(fieldType)){
System.out.println(fieldName + "\t\t" + fieldType + "\t\t" + fieldComment);
}
}
}
}
}
public static void main(String[] args){
System.out.println(">>>>>>>>>>>>>>>>>>>>>>>>>>>>>");
parse("CREATE TABLE `userinfo` (\n" +
" `user_id` int(11) NOT NULL AUTO_INCREMENT COMMENT '用户ID',\n" +
" `username` varchar(255) NOT NULL COMMENT '用户名',\n" +
" `addtime` datetime NOT NULL COMMENT '创建时间',\n" +
" PRIMARY KEY (`user_id`)\n" +
") ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='用户信息'");
System.out.println(">>>>>>>>>>>>>>>>>>>>>>>>>>>>>");
parse("CREATE TABLE `USER` (\n" +
"`ID` varchar(32) PRIMARY KEY COMMENT '主键',\n" +
"`password` varchar(32) NOT NULL COMMENT '密码',\n" +
"`username` varchar(32) NOT NULL COMMENT '用户'\n" +
") ENGINE=InnoDB DEFAULT CHARSET=utf8;");
System.out.println(">>>>>>>>>>>>>>>>>>>>>>>>>>>>>");
parse("CREATE TABLE `tb_amount` (\n" +
"`ID` int(10) NOT NULL AUTO_INCREMENT,\n" +
"`PRODUCT_CODE` varchar(50) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NOT NULL COMMENT '产品代码',\n" +
"`GENDER` varchar(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL COMMENT '性别(male,female)',\n" +
"`MIN_INSURED_AGE` int(3) NULL DEFAULT NULL COMMENT '最小投保年龄',\n" +
"`MAX_INSURED_AGE` int(3) NULL DEFAULT NULL COMMENT '最大投保年龄',\n" +
"`AMOUNT` double(10, 2) NULL DEFAULT NULL COMMENT '基本保额',\n" +
"`PREMIUM_RATE` double(10, 2) NULL DEFAULT NULL COMMENT '基本保费',\n" +
"`YEAR_NUM` int(3) NULL DEFAULT NULL COMMENT '缴费年限',\n" +
"`PREMIUM_TYPE` varchar(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL COMMENT '费率类型',\n" +
"`INSURANCE_PERIOD` varchar(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL COMMENT '保险期间(30年,60年)',\n" +
"`INSURANCE_PERIOD_TYPE` varchar(50) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL COMMENT '保险期间类型(如定期年0,定期岁1,终身2,以后终身对应值:200)',\n" +
"`PAY_MODE` varchar(10) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci NULL DEFAULT NULL COMMENT '交费方式',\n" +
"PRIMARY KEY (`ID`) USING BTREE\n" +
") ENGINE = InnoDB CHARACTER SET = utf8mb4 COLLATE = utf8mb4_0900_ai_ci ROW_FORMAT = Dynamic;");
}
控制台输出内容:
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
`userinfo` 用户信息
==========
`user_id` int 用户ID
`username` varchar 用户名
`addtime` datetime 创建时间
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
`USER` null
==========
`ID` varchar 主键
`password` varchar 密码
`username` varchar 用户
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>
`tb_amount` null
==========
`ID` int null
`PRODUCT_CODE` varchar 产品代码
`GENDER` varchar 性别(male,female)
`MIN_INSURED_AGE` int 最小投保年龄
`MAX_INSURED_AGE` int 最大投保年龄
`AMOUNT` double 基本保额
`PREMIUM_RATE` double 基本保费
`YEAR_NUM` int 缴费年限
`PREMIUM_TYPE` varchar 费率类型
`INSURANCE_PERIOD` varchar 保险期间(30年,60年)
`INSURANCE_PERIOD_TYPE` varchar 保险期间类型(如定期年0,定期岁1,终身2,以后终身对应值:200)
`PAY_MODE` varchar 交费方式
来源:https://blog.csdn.net/moshowgame/article/details/94447007


猜你喜欢
- 客户端程序编写免不了经常接触XMLHttpRequest对象。微软的XHR实现的progid又是一串一串的。 烦人。抽一个中午时间,找了找资
- 本文实例讲述了Python实现繁體转为简体的方法。分享给大家供大家参考,具体如下:这里需要用到两个文件,可以点击此处本站下载源文件:zh_w
- 表单在网页中主要负责数据采集功能。一个表单有三个基本组成部分: 表单标签:这里面包含了处理表单数据所用CGI程序的URL以及数
- 由于存在函数内部不能访问全局作用的,所以就需要一种可以引入上一级作用域的语法结构,可以通过use使用函数声明时所在作用域的变量的值。php的
- mysql默认varchar类型是对大小写不敏感(不区分),如果想要mysql区分大小写需要设置排序规则:utf8_bin将字符串中的每一个
- 两个MySql服务的应用 一、如何在同一系统中安装两个MySql服务。 安装一个5.0版本的,再安装一个5.1版本的就可以了。我用的是mys
- 长期以来我就有对几年来交互设计的心得进行总结整理的想法。回到中国来亲身体会到不少同行,主要是交互设计师和视觉设计师对于交互设计的困惑,以及其
- 1、sys.stdin.readline()与inputimport sys# sys.stdin.readline() 相当于input,
- 在linux服务器部署thinkphp5的时候PHP报了Warning: require(): open_basedir restricti
- 什么是 NFT?NFT英文全称为Non-Fungible Token,翻译成中文就是:非同质化代币,具有不可分割、不可替代、独一无二等特点。
- VS2013的简单WInForm控件,通过WebRequest,WebResponse来访问,接收:private void btn_int
- 有时在处理不规则数据时需要提取文本包含的时间日期。dateutil.parser模块可以统一日期字符串格式。datefinder模块可以在字
- 因为python是动态语言,变量类型是可变的,所以不管pycharm还是sublime都做不到准确的类型推断。一个比较取巧的做法是asser
- 我通过如下的一段程序发送post请求:import urllib3pool = urllib3.connection_from_url(
- 在使用javascript编程时浏览器中经常会遇到的两个麻烦,下面提供两个函数解决方式做参考,并提供一个demo让你更直观地了解我所说的这两
- 一般数据库默认是10次尝试失败后锁住用户 1、查看FAILED_LOGIN_ATTEMPTS的值selec
- 本文实例为大家分享了python实现TCP文件接收发送的具体代码,供大家参考,具体内容如下下一篇分享:udp收发的实现先运行服务器端打开接收
- SQL Server 获取数据的总记录数,有两种方式:1.先分页获取数据,然后再查询一遍数据库获取到总数量2.使用count(1) over
- while循环是在Python中的循环结构之一。 while循环继续,直到表达式变为假。表达的是一个逻辑表达式,必须返回一个true或fal
- 驱动树莓派gpio的中间层库函数有wiringPi,BCM2835,以及PRi.GPIO,这里我选择使用Python语言开发的PRi.GPI