之前我写过一篇文章介绍如何实现中国站长站的文章干扰码功能:《谈中国站长站的文章干扰码实现方法》 首发在中国asp之家。如果大家有兴趣可以先看看。
知道了如何添加随机干扰码后,当然也要研究一下如何过滤去掉这个干扰码,否则要转chinaz的文章时就麻烦了,短的文章我们手动清除干扰码也不费力,如果是长的文章,段落很多,要清除干净干扰码是很费神,费时间的,一不留神还容易漏掉一两个,如果让访客看到就不好了,呵呵。
我今天就来给大家分享一下如何自动过滤中国站长站的这个文章干扰码,当然我的方法也许不是最好的,欢迎大家一起讨论指导!
这里我介绍两种去除干扰码的方法:
一是,在客户端通过javascript程序过滤
二是,在服务器端通过asp程序自动清除干扰码
这两种方法,各有优点,客户端处理适合手动添加文章,及时排除干扰,利于内容的编辑。服务器端处理适合批量采集文章入库。
为了方便大家理解同样我也引用了一段经过chianz加干扰的文章内容html代码:
<p>北京时间1月2日消息:据国外媒体报道,密切关注Google搜索引擎的博客网站“Google操作系统”最近发现,Google对网页搜索算法进行了调整,最新更新的网页能够获得更高的排名。 <span class='Gwx425'>站.长.站</span> </p>
<p>据该网站报道,多次搜索表明,最近更新的网页能够获得比较高的排名。 <font color='#F5FAFE'>中国.站.长站</font> </p>
<p>过去,维基百科拥有较高排名。但是在一些术语的搜索上,Google将首先显示来自Digg网站最新的帖子。 <p class='Gwx425'>Www.Chinaz.com</p> </p>
<p>据TechCrunch网站博客评论,和雅虎、微软等搜索对手相比,Google在抓取、索引最新网页方面一直占据优势地位。新网页获得更高排名有助于显示出Google这一优势。 <div class='Gwx425'>Chinaz~com</div> </p>
分析代码我们知道,它的干扰码的特点都是以:
<span class='Gwx425'>干扰文字</span>
<p class='Gwx425'>干扰文字</p>
<div class='Gwx425'>干扰文字</div>
<font color='#F5FAFE'>干扰文字</font>
这四种html代码形式隐藏的,并且class和color的值都是随机的。所以我们就要想办法通过程序来自动过滤掉这些无用的代码。
请稍等,评论加载中...