如何过滤中国站长站(chianz)文章干扰码
来源:asp之家 发布时间:2008-01-04 20:14:00
标签:干扰码,中国站长站,正则表达式,javascript
之前我写过一篇文章介绍如何实现中国站长站的文章干扰码功能:《谈中国站长站的文章干扰码实现方法》 首发在asp之家。如果大家有兴趣可以先看看。
知道了如何添加随机干扰码后,当然也要研究一下如何过滤去掉这个干扰码,否则要转chinaz的文章时就麻烦了,短的文章我们手动清除干扰码也不费力,如果是长的文章,段落很多,要清除干净干扰码是很费神,费时间的,一不留神还容易漏掉一两个,如果让访客看到就不好了,呵呵。
我今天就来给大家分享一下如何自动过滤中国站长站的这个文章干扰码,当然我的方法也许不是最好的,欢迎大家一起讨论指导!
这里我介绍两种去除干扰码的方法:
一是,在客户端通过javascript程序过滤
二是,在服务器端通过asp程序自动清除干扰码
这两种方法,各有优点,客户端处理适合手动添加文章,及时排除干扰,利于内容的编辑。服务器端处理适合批量采集文章入库。
为了方便大家理解同样我也引用了一段经过chianz加干扰的文章内容html代码:
<p>北京时间1月2日消息:据国外媒体报道,密切关注Google搜索引擎的博客网站“Google操作系统”最近发现,Google对网页搜索算法进行了调整,最新更新的网页能够获得更高的排名。 <span class='Gwx425'>站.长.站</span> </p>
<p>据该网站报道,多次搜索表明,最近更新的网页能够获得比较高的排名。 <font color='#F5FAFE'>中国.站.长站</font> </p>
<p>过去, * 拥有较高排名。但是在一些术语的搜索上,Google将首先显示来自Digg网站最新的帖子。 <p class='Gwx425'>Www.Chinaz.com</p> </p>
<p>据TechCrunch网站博客评论,和雅虎、微软等搜索对手相比,Google在抓取、索引最新网页方面一直占据优势地位。新网页获得更高排名有助于显示出Google这一优势。 <div class='Gwx425'>Chinaz~com</div> </p>
分析代码我们知道,它的干扰码的特点都是以:
<span class='Gwx425'>干扰文字</span>
<p class='Gwx425'>干扰文字</p>
<div class='Gwx425'>干扰文字</div>
<font color='#F5FAFE'>干扰文字</font>
这四种html代码形式隐藏的,并且class和color的值都是随机的。所以我们就要想办法通过程序来自动过滤掉这些无用的代码。
0
投稿
猜你喜欢
- 1.指向“开始->程序->Microsoft SQL Server 2005->配置工具->SQL Server 外
- 在封装自己的FileSystemObject库的时候,测试的时候发现在文件夹或文件很多的时候,效率很低,显示一个文件夹需要2秒甚至更多,这让
- 我们的每期话题,团队在内部都会通过邮件进行一番讨论,随着讨论的激烈,往往能碰撞出很多有意义的观点,因此,将讨论内容分享出来,有兴趣的朋友可以
- 最近在查看asp之家的访客统计时,发现访客使用firefox浏览器的占了10%-15%,而大部分的访客使用的是IE6,呵呵我也是用IE6。而
- 最近正在用功的学习jQuery,在琢磨了不少别人写的功能之后,也开始尝试着自己开发一些功能。今天我做了一个简单的密码强度测试工具。这可功能的
- meta是用来在HTML文档中模拟HTTP协议的响应头报文。meta 标签用于网页的<head>与</head&
- CSS网页布局应该避免滥用div元素一直是我们倡导的,以合适的HTML标签组织文档是CSS网页布局的基础。页面中div与span元素的使用是
- 继续Mootools常用方法扩展,依然还是String类的扩展。方法:format说明:一个非常简单的format方法,和C#
- <!--#include file="conn/conn.asp"--> <% set Newslis
- Inserted 表中的行是触发器表中新行的副本。 语法 返回所有列 INSERT INTO [tableName] ([columnNam
- 创建与打开站点启动FrontPage XP,选择菜单“文件/新建”,再单击“网页或站点”命令选项。在“新建网页或站点”任务窗格
- 今天来说说鄙人对input输入框在处理上的细节处理和心得,其实制作一个符合CSS标准、FF/IE7/IE6等主流浏览器全兼容、符合用户体验的
- 看到这篇文章的人,如果我没有估计错的话,八成是从事互联网的人,其中又有八成是做设计的。如果真是这样,可以一起庆幸一下。首先,庆幸从事着一个没
- 首先,创建一个存储过程 get_clob:t_name:要查询的表名;f_name:要查询的字段名;u_id:表的主键,查询条件;l_pos
- 划动门菜单技术:运行代码框<style>body {font-size:12px;font-family:宋体}ul.TabBa
- 一直以来,我们大多使用js来实现弹出菜单,可是根据 w3c 的css标准,根本就没有这个必要。只需要简单得使用css+html就可以做出一个
- 导读:由于banner一般用于专题类网站,在门户网站的二级页面,用户进来之前,在首页已经对主题有一定的了解和认识,所以banner的作用是在
- MySQL由于它本身的小巧和操作的高效, 在数据库应用中越来越多的被采用.我在开发一个P2P应用的时候曾经使用MySQL来保存P2P节点,由
- 1.SYS用户具有DBA权限,并且拥有SYS模式,只能通过SYSDBA登陆数据库。是Oracle数据库中权限最高的帐号SYSTEM具有DBA
- 一直也搞不清楚px与em之间的关系和特点,看过95%的中国网站需要重写CSS以后后确实收获很大。平时都是用px来定义字体,所以无法用浏览器字