如何过滤中国站长站(chianz)文章干扰码
来源:asp之家 发布时间:2008-01-04 20:14:00
标签:干扰码,中国站长站,正则表达式,javascript
之前我写过一篇文章介绍如何实现中国站长站的文章干扰码功能:《谈中国站长站的文章干扰码实现方法》 首发在asp之家。如果大家有兴趣可以先看看。
知道了如何添加随机干扰码后,当然也要研究一下如何过滤去掉这个干扰码,否则要转chinaz的文章时就麻烦了,短的文章我们手动清除干扰码也不费力,如果是长的文章,段落很多,要清除干净干扰码是很费神,费时间的,一不留神还容易漏掉一两个,如果让访客看到就不好了,呵呵。
我今天就来给大家分享一下如何自动过滤中国站长站的这个文章干扰码,当然我的方法也许不是最好的,欢迎大家一起讨论指导!
这里我介绍两种去除干扰码的方法:
一是,在客户端通过javascript程序过滤
二是,在服务器端通过asp程序自动清除干扰码
这两种方法,各有优点,客户端处理适合手动添加文章,及时排除干扰,利于内容的编辑。服务器端处理适合批量采集文章入库。
为了方便大家理解同样我也引用了一段经过chianz加干扰的文章内容html代码:
<p>北京时间1月2日消息:据国外媒体报道,密切关注Google搜索引擎的博客网站“Google操作系统”最近发现,Google对网页搜索算法进行了调整,最新更新的网页能够获得更高的排名。 <span class='Gwx425'>站.长.站</span> </p>
<p>据该网站报道,多次搜索表明,最近更新的网页能够获得比较高的排名。 <font color='#F5FAFE'>中国.站.长站</font> </p>
<p>过去, * 拥有较高排名。但是在一些术语的搜索上,Google将首先显示来自Digg网站最新的帖子。 <p class='Gwx425'>Www.Chinaz.com</p> </p>
<p>据TechCrunch网站博客评论,和雅虎、微软等搜索对手相比,Google在抓取、索引最新网页方面一直占据优势地位。新网页获得更高排名有助于显示出Google这一优势。 <div class='Gwx425'>Chinaz~com</div> </p>
分析代码我们知道,它的干扰码的特点都是以:
<span class='Gwx425'>干扰文字</span>
<p class='Gwx425'>干扰文字</p>
<div class='Gwx425'>干扰文字</div>
<font color='#F5FAFE'>干扰文字</font>
这四种html代码形式隐藏的,并且class和color的值都是随机的。所以我们就要想办法通过程序来自动过滤掉这些无用的代码。


猜你喜欢
- 前言当我们忘记mysql数据库密码时我们就无法正常进入数据库,也就无法修改密码,那么这时该怎么修改密码呢,这里教大家一个简单常用修改密码的方
- python语言本身没有提供const,但实际开发中经常会遇到需要使用const的情形,由于语言本身没有这种支出,因此需要使用一些技巧来实现
- ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。E
- select * from _test a left join _test b on a.id=b.id where a.level=
- 一、概述网络爬虫(Web crawler),又称为网络蜘蛛(Web spider)或网络机器人(Web robot),主要用来爬取目标网站内
- 我的机器不知为何,安装MySQL的时候,一到配置那一步就无休止的等待,只好结束任务,然而启动MySQL的时候出现1067错误提示
- 对于经常需要表格头部不东,而列表可以滚动,多用于数据比较多的情况,方便查看<!DOCTYPE HTML PUBLIC "-/
- WinForm 中添加 openFileDialog Button, WinForm .cs 中添加本地.mdf,如下:using Syst
- 前段时间嗷嗷有发过"好玩的放大镜效果",今天看了下,发现还有简单的方法也能够实现,即利用内外补丁的调整。有兴趣的可以在琢
- math模块# 数学相关模块import mathr = math.floor(3.2) # 向下取整print(r)r = math.ce
- 一.权限表mysql数据库中的3个权限表:user 、db、 host权限表的存取过程是:1)先从user表中的host、 user、 pa
- 最近在玩一个叫Baba is you的游戏,很羡慕里面的一个转场特效,所以试着做了一下。主要使用了JS和CSS,特效主要是用CSS实现的。H
- 一个快速的REST例子首先来看些基本知识。如果没有服务API,Neo4j就不能支持其他语言。该接口提供一组基于JSON消息格式的
- 一 、精灵(Sprite),屏幕上的对象。精灵组是精灵的组合。创建空的精灵组对象:精灵组可以对其中的所有精灵调用它们各自的更新方法(self
- 假设某宝为鼓励大家双12买买买,奖励双十一那天订单最多的两位用户:分别是用户1:“剁手皇帝陈哈哈” 和 用户2:“触手怪刘大莉” 一人一万元
- 前言matplotlib.pyplot是一些命令行风格函数的集合,使matplotlib以类似于MATLAB的方式工作。每个pyplot函数
- python 在传入字典参数到函数中时总是需要检查键是否齐全,每次手工写总是觉得太麻烦。所以还是自己写一个比较方便。#Check if th
- 一、简介基础知识:需要一定的html和css的语法知识基本概念:PHP(超文本预处理器)是一种通用开源脚本语言,在服务器上执行。PHP文件:
- 很久笔者没有来这里写东西了,因为真的很忙。最近笔者一直在使用Win2008系统,不过发现一个很奇怪的问题,那就是在该系统上安装了SQL200
- SELECT *FROM ( &n