网站数据的采集及实践(2)
作者:淡然一笑 来源:站长网 发布时间:2007-10-01 14:36:00
其次讲下采集工具的选择
采集工具不下几十种,如何选择适当的工具要看各位的爱好,其实学好一二种采集工具就可以了。 有cms系统自带的如帝国cms自带的采集, 有专门的采集的软件如火车头、小蜜蜂、贴探小黑、守望、三人行、ET等等,下面简单介绍一下: 字串9
①火车头采集软件,这个是最早的采集的软件,也是大名鼎鼎的采集软件, 软件安装有点麻烦,软件采用.net 架构,不过也容易搞定。 字串8
软件的优点很多,规则制订也相对简单,可以制订整个站的规则,也可以本地入库同步发布到网站。 缺点是发布模块不容易找,而且难于开发,对新手来说很难发布成功。 因为作者近半年都没更新,bug比较多,最新的V3.2快出来了,还是值得期待的。
②小蜜蜂采集,这个可以和他的BBWPS--小蜜蜂商务网站门户系统整合使用,也可以单独用,需要本地装php环境,也半年没更新了 不过对国外的一些cms如joomla支持,还是不错的。刚才有问做英文站采集,用这个也是可以的
③贴探小黑 这个是收费的采集器,对新手来说还比较好用, 但规则制订感觉好别扭,比较好的解决了发布的问题,速度也很快,最新的4.0出来后作者可能会停止开发了 这个对论坛采集比较好,对网站的cms还不支持,还有不能多页采集,缺陷比较多。
④三人行 这个软件还是下了很多功夫的,界面有些粗糙,感觉不到位,有些作弊功能很不错,比如论坛同时在线、批量发贴等等 呵呵,平时很少用。由于作者的功利因素有很多不同名字的软件版本,功能基本一样,有些混乱。
⑤守望。这也是php的平台开发的,可直接安装在网站服务器上,直接采集到服务器上,这个比较好,免除了数据上传时间。
⑥ET。这个可谓后起之秀,比较好用,制订规则也简单灵活,但有的地方还不成熟。支持的系统还不多,不过潜力很大,新出的模拟提交,基本上绝大部分类型的采集都可做了。
以上是采集工具的介绍,哪种好用要看各位的偏好了。
采集用到的工具还包括抓包分析工具,如sniffer,wsockexpert等,
ASP的采集器。。。。
源代码分析工具,对于地址隐藏的网页用遨游自带的viewpage也挺好, 好象火车头3.2附带的新的源代码分析工具放出来了,对一些难采集的网站可以试试。
一般大家喜欢用2000/xp自带的记事本查看源代码,建议升级到vistia的记事本,支持繁体和框架,绝对好用 字串7
更深一步的还要学习破解ajax,就里就不介绍了。 第三个方面我讲采集数据的加工。数据采集来固然可以直接发布到网上去,但经过加工效果会更好。 数据的加工包括去掉别人的广告,换上自己的广告,过滤掉一些外站的链接
数据格式的简繁转换及编码转换
网站优化SEO处理等等 这里要注意的问题是别人广告一定要过滤干净,否则自己得不到广告费,别人的GG帐户也不安全,反而也害了别人。 还有SEO处理不要过份,适可而止,否则只会起反作用。 更高层次的采集是把采集内容变成自己的原创,这个需要高手自编程序对数据进行处理
目前为止还没见过这样的工具,不过有《疯狂作文》这样的软件出来,相信也不是做不到。
第四个方面是后续维护。
这个后续维护也可以翻陈出新,把已采集的数据进行再加工,添加新的关键字,新瓶也可以装旧酒。
通过我对几十个客户的采集教程,谈下我的体会。 采集内容要关注一定热度的内容, 字串7
比如QQ空间、QQ表情这些流量是很猛的,
还有游戏类型的网站, 有针对性群体的网站也比较好做。我一个客户一个月前采集的女性论坛站,数据有4万,现在基本在线在150人左右,日发新贴140篇
还有一个台湾客户2个月前采集的verycd电影站,现在日增新注册用户50左右,可见垃圾站还是有做头的。
大体内容就讲这些了,有什么需要了解的请朋友们提出来
猜你喜欢
- 各位站长好,以前给百度客服打过N次电话,每每问及近期收录相关事谊都不给允回答。今天又打了一次。接电话的是个男的,听声音好像未成年...(日小
- 你是否在计划给网站换一个新的域名?(比如,从www.doumiao.net换成www.doumiao.com)更换域名和更换服务器空间是完全
- Windows系统内置的Internet 信息服务(IIS)对ASP具有良好的支持,因此在IIS中调试ASP网页是非常方便的。但有些朋友的网
- 速度|显示|页面  
- 允许Web用户访问数据库是一项很精细的工作,需要认真的考虑,不能马虎从事。TechRepublic会员E Spigle 最近在TechRep
- Google今天的首页太酷了,还能直接当游戏玩,今天,也就是周六,为了纪念吃豆子(Pac-Man)游戏发布30周年,Google在首页推出了
- PHPWind v7.3.2“引用”的返回链接如果链接到主题部分出错。解决方法:打开job.php查找:} elseif 
- 当经济危机肆虐全球的今天,当这股经济寒流或多或少的伤及各个领域的时候,在订单减少、客户流失、资金紧张的情况下,公司如何化险为夷,顺利度过这个
- 百度,中国搜索引擎的老大,用户最多的搜索引擎,现在排名算法即将发生改变,我们应该怎么面对了?在不知道新的算法前,我们现在可以做下面的东西为新
- Immunet Project,赛门铁克公司响应中心前任总监奥利弗。弗雷德里希(Oliver Friedrichs)开发了一款基于云的免费杀
- 在过去十年中,层出不穷的 Web 应用和人们对互联网的依赖程度有显著的增加。Web 的发展带来了一系列新机遇、身临其境的体验、联机服务和标准
- 北京时间11月14日消息,据国外媒体报道,微软Office 2010 beta版提前泄露,用户不必等到下周微软正式发布,现在就可以在P2P网
- 你是否留心过:通过域名访问网站首页时,网页返回Http状态码是什么?甚至访问内页时,Http状态码又是什么吗?大多数人可能会想当然的认为首页
- 由于百度自然排名有时候喜怒无常,经常会出现巨大的跳跃性和不稳定性。一、先说跳跃性:关注的一个新站,在做了一些搜索引擎优化以后,大概30天左右
- 本人是从事网站建设行业,站长朋友们都说专业做网站的来做站长,可以省不少力气,事实证明确实是这样,现在的网站建设行业粥少僧多,行业朋友们都活的
- Zend Optimizer安装图解本文讨论的是Windows2003+IIS6.0下安装Zend Optimizer,请注意 下
- 11月10日,腾讯控股明日将发布第三季度财报,市场憧憬其网上游戏业务会有不俗表现,多家投行再次调高该股的目标价,并预测该季利润将超13亿元。
- 首先,请记住这两句话:你越努力,你的运气就会越好!没有失败,只是暂时没有成功!第一次来落伍是两年前的事了,那是我无意中在中国站长与广告论坛里
- 我在《Perl、PHP、ASP、JSP技术比较》一文中曾经对四种流行的网站设计语言进行了评测和对比,常言道鱼与熊掌皆我所欲,两者不可兼得,那
- 10月12日消息,据国外媒体报道,有业内人士称,英特尔将来可能开发自己的视频游戏机,从而向索尼、微软和任天堂发起挑战。有消息称,微软和索尼将