asp正则表达式在网页处理中的应用四则(3)
发布时间:2008-02-24 14:44:00
三、解析文本数据文件
数据文件的格式和种类很多,XML文档、结构化文本甚至非结构化文本都经常成为ASP应用的数据源。下面我们要看的一个例子是使用限定符的结构化文本文件。限定符(比如引号)表示字符串各个部分不可分割,即使字符串内部包含把记录分隔成字段的分隔符也一样。
下面是一个简单的结构化文本文件:
姓,名, 电话, 说明
孙,悟空, 312 555 5656, ASP很好
猪,八戒, 847 555 5656, 我是电影制片人
这个文件非常简单,它的第一行是标题,下面两行是用逗号作为分隔符的记录。要解析这个文件也很简单,只需先把文件分割成行(根据换行符号),然后把各个记录按照字段分割。但是,如果我们在某个字段内容中加入了逗号:
姓,名, 电话, 说明
孙,悟空, 312 555 5656, 我喜欢ASP,还有VB和SQL
猪,八戒, 847 555 5656, 我是电影制片人
解析第一个记录时就会出现问题,因为在只认可逗号分隔符的解析器看来它的最后一个字段包含了两个字段的内容。为了避免出现这类问题,包含分隔符的字段必须用限定符包围。单引号就是一种常用的限定符。把上面的文本文件加上单引号限定符之后,它的内容如下所示:
姓,名, 电话, 说明
孙,悟空, 312 555 5656, '我喜欢ASP,还有VB和SQL'
猪,八戒, 847 555 5656, '我是电影制片人'
现在我们能够肯定哪一个逗号是分隔符、哪一个逗号是字段内容了,即只需把引号内部出现的逗号视为字段的内容。接下来我们要做的就是实现一个正则表达式解析器,由这个解析器确定何时根据逗号分割字段、何时把逗号视为字段内容。
这里的问题与大多数正则表达式所面临的略有不同。通常我们查看的是文本的一小部分,看看它是否能够和正则表达式匹配。但在这里,只有考虑了整行文本之后我们才能可靠地判断出哪些内容位于引号之内。
下面是一个说明该问题的例子。从某个文本文件随意抽取半行内容,得到:1, 沙滩, 黑色, 21, ', 狗, 猫, 鸭子, ', 。在这个例子中,因为“1”的左边还有其他数据,要解析清楚它的内容是极其困难的。我们不知道这个数据片断的前面有多少单引号,从而也就无法判断哪些字符位于引号之内(在引号之内的文本解析时不能分割)。如果这个数据片断之前有偶数个(或者没有)单引号,那么“', 狗, 猫, 鸭子, '”是用引号界定的字符串且不可分割。如果前面的引号数量是奇数,那么“1, 沙滩, 黑色, 21, '”是某个字符串的结束部分且不可分割。
因此,正则表达式必须分析整行文本,全面考虑出现了多少引号才能确定字符是处在引号对的内部还是外部,即:,(?=([^']*'[^']*')*(?![^']*'))。这个正则表达式首先找到一个引号,然后继续查找并保证逗号后面的单引号数量或者是偶数、或者是0。该正则表达式以下面这个判断为基础:如果逗号后面的单引号数量是偶数,那么这个逗号位于字符串之外。下表给出了更详细的说明:
, 寻找一个逗号 (?= 继续向前查找以匹配下面这个模式: ( 开始一个新的模式 [^']*' [非引号字符]0个或者多个,然后是一个引号 [^']*'[^']*) [非引号字符]0个或者多个,然后是一个引号。结合前面的内容之后它匹配引号对 )* 结束模式并匹配整个模式(引号对)0次或者多次 (?! 向前查找,排除此模式 [^']*' [非引号字符]0个或者多个,然后是一个引号 ) 结束模式
下面是一个VBScript函数,它接受一个字符串参数,根据字符串中的逗号分隔符、单引号限定符分割字符串,返回结果数组:
Function SplitAdv(strInput)
Dim objRE
Set objRE = new RegExp
' 设置RegExp对象
objRE.IgnoreCase = true
objRE.Global = true
objRE.Pattern = ",(?=([^']*'[^']*')*(?![^']*'))"
' Replace方法用chr(8)替换我们要用到的逗号,chr(8)即\b
' 字符,\b在字符串中出现的可能极为微小。
' 然后我们根据\b把字符串分割保存到数组
SplitAdv = Split(objRE.Replace(strInput, "\b"), "\b")
End Function
总而言之,用正则表达式解析文本数据文件具有高效、缩短开发时间的优点,能够节省大量分析文件、根据复杂的条件提取有用数据的时间。在一个迅速发展的环境中仍会有许多传统的数据可资利用,掌握如何构造高效的数据分析例程将是一种宝贵的技能。


猜你喜欢
- 本文实例讲述了Java读取文件及基于正则表达式的获取电话号码功能。分享给大家供大家参考,具体如下:1、正则表达式正则表达式,又称 正规表示法
- 本文实例讲述了python使用socket远程连接错误处理方法。分享给大家供大家参考。具体如下:import socket, syshost
- 简介Jenkins是一个开源的、提供友好操作界面的持续集成(CI)工具,起源于Hudson(Hudson是商用的),主要用于持续、自动的构建
- 环境springboot、mybatisPlus、mysql8mysql8(部署在1核2G的服务器上,很卡,所以下面的数据条数用5000,太
- key_len的含义在MySQL中,可以通过explain查看SQL语句所走的路径,如下所示:mysql> create table
- 在《javascript设计模式》中对这种方法作了比较详细的描述,实现方法的链式调用,只须让在原型中定义的方法都返回调用这些方法的实例对象的
- 随着十几年前“用户体验”这一概念的提出,“用户研究”也逐渐发展成为一个新兴的行业。那么,“用户研究”究竟包括哪些工作内容,在企业中如何开展,
- Elastic Security 为分析人员提供了预防,检测和响应威胁的手段。 该解决方案解决了SIEM,endpoint,威胁搜寻等安全用
- 什么是.netMicrosoft® .NET 是 Microsoft XML Web services 平台。XML Web
- 本文实例分析了JS重载实现方法。分享给大家供大家参考,具体如下:重载是面向对象语言里很重要的一个特性,JS中没有真正的重载,是模拟出来的(因
- 不得不说python的上手非常简单。在网上找了一下,大都是python2的帖子,于是随手写了个python3的。代码非常简单就不解释了,直接
- Java 正则表达式正则表达式定义了字符串的模式。正则表达式可以用来搜索、编辑或处理文本。正则表达式并不仅限于某一种语言,但是在每种语言中有
- 一、URL的概念统一资源定位符(或称统一资源 * /定位地址、URL地址等,英语:Uniform Resource Locator,常缩写为
- <script type="text/javascript"> // Close HTML Tags ---
- 看看这个logo,有些像python的小蛇吧 。这次介绍的数据库codernityDB是纯python开发的。先前用了下tinyDB这个本地
- 插入数据MySQL 表中使用 INSERT INTO SQL语句来插入数据。你可以通过 mysql> 命令提示窗口中向数据表中插入数据
- 列表和元组:list是一种有序的集合,可以随时添加和删除其中的元素.1,创建一个普通列表List = ['Jack',
- 一、概述公司需要通过网页用户认证登录实现上网,网络设备判断当前帐号12小时没有没上网将会自动断开帐号上网,每天早上上班第一件事就是打开用户认
- python是一种跨平台的计算机程序设计语言。python是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言,可以应用于科学计算
- 在使用pytorch训练模型,经常需要加载大量图片数据,因此pytorch提供了好用的数据加载工具Dataloader。为了实现小批量循环读