网络编程
位置:首页>> 网络编程>> Asp编程>> asp正则表达式在网页处理中的应用四则(3)

asp正则表达式在网页处理中的应用四则(3)

  发布时间:2008-02-24 14:44:00 

标签:正则表达式,RegExp,asp
 

三、解析文本数据文件

数据文件的格式和种类很多,XML文档、结构化文本甚至非结构化文本都经常成为ASP应用的数据源。下面我们要看的一个例子是使用限定符的结构化文本文件。限定符(比如引号)表示字符串各个部分不可分割,即使字符串内部包含把记录分隔成字段的分隔符也一样。

  下面是一个简单的结构化文本文件:

 

 姓,名, 电话, 说明
孙,悟空, 312 555 5656, ASP很好
猪,八戒, 847 555 5656, 我是电影制片人

这个文件非常简单,它的第一行是标题,下面两行是用逗号作为分隔符的记录。要解析这个文件也很简单,只需先把文件分割成行(根据换行符号),然后把各个记录按照字段分割。但是,如果我们在某个字段内容中加入了逗号:

  姓,名, 电话, 说明
孙,悟空, 312 555 5656, 我喜欢ASP,还有VB和SQL
猪,八戒, 847 555 5656, 我是电影制片人

解析第一个记录时就会出现问题,因为在只认可逗号分隔符的解析器看来它的最后一个字段包含了两个字段的内容。为了避免出现这类问题,包含分隔符的字段必须用限定符包围。单引号就是一种常用的限定符。把上面的文本文件加上单引号限定符之后,它的内容如下所示:

 

 姓,名, 电话, 说明
孙,悟空, 312 555 5656, '我喜欢ASP,还有VB和SQL'
猪,八戒, 847 555 5656, '我是电影制片人'

现在我们能够肯定哪一个逗号是分隔符、哪一个逗号是字段内容了,即只需把引号内部出现的逗号视为字段的内容。接下来我们要做的就是实现一个正则表达式解析器,由这个解析器确定何时根据逗号分割字段、何时把逗号视为字段内容。

  这里的问题与大多数正则表达式所面临的略有不同。通常我们查看的是文本的一小部分,看看它是否能够和正则表达式匹配。但在这里,只有考虑了整行文本之后我们才能可靠地判断出哪些内容位于引号之内。

  下面是一个说明该问题的例子。从某个文本文件随意抽取半行内容,得到:1, 沙滩, 黑色, 21, ', 狗, 猫, 鸭子, ', 。在这个例子中,因为“1”的左边还有其他数据,要解析清楚它的内容是极其困难的。我们不知道这个数据片断的前面有多少单引号,从而也就无法判断哪些字符位于引号之内(在引号之内的文本解析时不能分割)。如果这个数据片断之前有偶数个(或者没有)单引号,那么“', 狗, 猫, 鸭子, '”是用引号界定的字符串且不可分割。如果前面的引号数量是奇数,那么“1, 沙滩, 黑色, 21, '”是某个字符串的结束部分且不可分割。

  因此,正则表达式必须分析整行文本,全面考虑出现了多少引号才能确定字符是处在引号对的内部还是外部,即:,(?=([^']*'[^']*')*(?![^']*'))。这个正则表达式首先找到一个引号,然后继续查找并保证逗号后面的单引号数量或者是偶数、或者是0。该正则表达式以下面这个判断为基础:如果逗号后面的单引号数量是偶数,那么这个逗号位于字符串之外。下表给出了更详细的说明:

  , 寻找一个逗号 (?= 继续向前查找以匹配下面这个模式: ( 开始一个新的模式 [^']*' [非引号字符]0个或者多个,然后是一个引号 [^']*'[^']*) [非引号字符]0个或者多个,然后是一个引号。结合前面的内容之后它匹配引号对 )* 结束模式并匹配整个模式(引号对)0次或者多次 (?! 向前查找,排除此模式 [^']*' [非引号字符]0个或者多个,然后是一个引号 ) 结束模式
  下面是一个VBScript函数,它接受一个字符串参数,根据字符串中的逗号分隔符、单引号限定符分割字符串,返回结果数组:

 

Function SplitAdv(strInput)
Dim objRE
Set objRE = new RegExp

' 设置RegExp对象
objRE.IgnoreCase = true
objRE.Global = true
objRE.Pattern = ",(?=([^']*'[^']*')*(?![^']*'))"

' Replace方法用chr(8)替换我们要用到的逗号,chr(8)即\b
' 字符,\b在字符串中出现的可能极为微小。
' 然后我们根据\b把字符串分割保存到数组
SplitAdv = Split(objRE.Replace(strInput, "\b"), "\b")
End Function

总而言之,用正则表达式解析文本数据文件具有高效、缩短开发时间的优点,能够节省大量分析文件、根据复杂的条件提取有用数据的时间。在一个迅速发展的环境中仍会有许多传统的数据可资利用,掌握如何构造高效的数据分析例程将是一种宝贵的技能。

0
投稿

猜你喜欢

  • 网上有这样一道题目:一个字符串String=“adadfdfseffserfefsefseetsdg”,找出里面出现次数最多的字母和出现的次
  • 使用了application及结合数据库来保存统计数据 <html><head><title>
  •     网页过渡是指当浏览者进入或离开网页时,页面呈现的不同的刷新效果,比如卷动、百叶窗等。这样你的网页看起来
  • 在输入框里面预设一段提示文字,当焦点在输入框的时候清空这段文字,这在目前来说已经不是什么新鲜事了。淘宝的搜索框就用到了这样一种设计:这种设计
  •  可在图片连接后面加上宽和高,如:width="150" height="50"<h
  • 自从HTML5能为我们的新网页带来更高效洁净的代码而得到更多的关注,然而唯一能让IE识别那些新元素(如<article>)的途径
  • 1、卓越亚马逊的首页轮换图片,每刷新一次,都是随机不同的顺序显示,这样的设计解决了对于较多图片轮换而靠后的图片信息很少被看到的问题,这点对于
  • 近日,朋友写一个关于成绩管理的系统,其中遇到一个小问题。如果按照SQLSERVER的ORDER 排序时,比如遇到两个100分,结果必然是名次
  •  代码如下:--Begin Index(索引) 分析优化的相关 Sql -- 返回当前数据库所有碎片率大于25%的索引 -- 运行
  • 每次查询分析器寻找路径时,并不会每一次都去统计索引中包含的行数,值的范围等,而是根据一定条件创建和更新这些信息后保存到数据库中,这也就是所谓
  • 朋友去面试。对方问他:说说你之前做的那个站,有什么地方好的?朋友就说:用户体验比别的站好。对方又问:你怎么知道用户体验比别的好?朋友于是又磕
  • 1.查询高于平均价格的商品名称:SELECT item_name FROM ebsp.product_mark
  • jQuery居然都没有JSON的decode和encode,精确类型判断也没有,囧……自己动手写吧!不过这些东西在网上都已经有很好的版本了,
  • 发现这个也是偶然,在测试的时候发现的,因此问题还发现一个bug。蛮有意思~ 假如输入http://www.aspxhome.com的话,在
  • 在JavaScript中存在这样两种原始类型:Null与Undefined。这两种类型常常会使JavaScript的开发人员产生疑惑,在什么
  • 去过新浪或者搜狐吗?虽然我们都不愿意看广告,但是它们做广告的技术我们却应该学到手,这不,又一种很流行的做法儿,做成那种两边对称的对联式的广告
  • 是扫盲文章, 其实我自己就是个被扫对象, 为了学习W3C标准地设计网页, 想到写这个系列的文章当作自己的学习笔记, 不求每篇都写很好, 只求
  • 最近常有厦门的客户通过网站上的联系方式加我QQ,询问网站改版的情况。几乎每日都要针对客户网站存在的问题做一番分析,然后客户以价格等其他因素结
  • 有的时候取出全部数据库记录也许正好满足你的要求,不过,在大多数情况下我们通常只需得到部分记录。这样一来该如何设计查询呢?当然会更费点脑筋了,
  • 内容摘要:这篇文章的主旨是弄清楚如何根据实际需求实现一个联动菜单以及联动菜单的原理,实例是实现一个日期选择下拉菜单。首先来分析一下日期下拉菜
手机版 网络编程 asp之家 www.aspxhome.com