网站数据的采集及实践(2)
作者:淡然一笑 来源:站长网 发布时间:2007-10-01 14:36:00
其次讲下采集工具的选择
采集工具不下几十种,如何选择适当的工具要看各位的爱好,其实学好一二种采集工具就可以了。 有cms系统自带的如帝国cms自带的采集, 有专门的采集的软件如火车头、小蜜蜂、贴探小黑、守望、三人行、ET等等,下面简单介绍一下: 字串9
①火车头采集软件,这个是最早的采集的软件,也是大名鼎鼎的采集软件, 软件安装有点麻烦,软件采用.net 架构,不过也容易搞定。 字串8
软件的优点很多,规则制订也相对简单,可以制订整个站的规则,也可以本地入库同步发布到网站。 缺点是发布模块不容易找,而且难于开发,对新手来说很难发布成功。 因为作者近半年都没更新,bug比较多,最新的V3.2快出来了,还是值得期待的。
②小蜜蜂采集,这个可以和他的BBWPS--小蜜蜂商务网站门户系统整合使用,也可以单独用,需要本地装php环境,也半年没更新了 不过对国外的一些cms如joomla支持,还是不错的。刚才有问做英文站采集,用这个也是可以的
③贴探小黑 这个是收费的采集器,对新手来说还比较好用, 但规则制订感觉好别扭,比较好的解决了发布的问题,速度也很快,最新的4.0出来后作者可能会停止开发了 这个对论坛采集比较好,对网站的cms还不支持,还有不能多页采集,缺陷比较多。
④三人行 这个软件还是下了很多功夫的,界面有些粗糙,感觉不到位,有些作弊功能很不错,比如论坛同时在线、批量发贴等等 呵呵,平时很少用。由于作者的功利因素有很多不同名字的软件版本,功能基本一样,有些混乱。
⑤守望。这也是php的平台开发的,可直接安装在网站服务器上,直接采集到服务器上,这个比较好,免除了数据上传时间。
⑥ET。这个可谓后起之秀,比较好用,制订规则也简单灵活,但有的地方还不成熟。支持的系统还不多,不过潜力很大,新出的模拟提交,基本上绝大部分类型的采集都可做了。
以上是采集工具的介绍,哪种好用要看各位的偏好了。
采集用到的工具还包括抓包分析工具,如sniffer,wsockexpert等,
ASP的采集器。。。。
源代码分析工具,对于地址隐藏的网页用遨游自带的viewpage也挺好, 好象火车头3.2附带的新的源代码分析工具放出来了,对一些难采集的网站可以试试。
一般大家喜欢用2000/xp自带的记事本查看源代码,建议升级到vistia的记事本,支持繁体和框架,绝对好用 字串7
更深一步的还要学习破解ajax,就里就不介绍了。 第三个方面我讲采集数据的加工。数据采集来固然可以直接发布到网上去,但经过加工效果会更好。 数据的加工包括去掉别人的广告,换上自己的广告,过滤掉一些外站的链接
数据格式的简繁转换及编码转换
网站优化SEO处理等等 这里要注意的问题是别人广告一定要过滤干净,否则自己得不到广告费,别人的GG帐户也不安全,反而也害了别人。 还有SEO处理不要过份,适可而止,否则只会起反作用。 更高层次的采集是把采集内容变成自己的原创,这个需要高手自编程序对数据进行处理
目前为止还没见过这样的工具,不过有《疯狂作文》这样的软件出来,相信也不是做不到。
第四个方面是后续维护。
这个后续维护也可以翻陈出新,把已采集的数据进行再加工,添加新的关键字,新瓶也可以装旧酒。
通过我对几十个客户的采集教程,谈下我的体会。 采集内容要关注一定热度的内容, 字串7
比如QQ空间、QQ表情这些流量是很猛的,
还有游戏类型的网站, 有针对性群体的网站也比较好做。我一个客户一个月前采集的女性论坛站,数据有4万,现在基本在线在150人左右,日发新贴140篇
还有一个台湾客户2个月前采集的verycd电影站,现在日增新注册用户50左右,可见垃圾站还是有做头的。
大体内容就讲这些了,有什么需要了解的请朋友们提出来


猜你喜欢
- 很多人在选择虚拟主机(Virtual Hosting)或者VPS的时候因为备案,网络审查,外贸等原因都倾向于把主机放在美国。美国作为互联网的
- 1、2008年1月5日,百度搜索风云榜上升最快的10个词中,有6个是关于“视频”的搜索。附,080105上升最快top10:双面飞轮海、美丽
- 配置背景介绍kubernetes是google开源的容器集群管理系统,提供应用部署、维护、扩展机制等功能,利用kubernetes能方便管理
- 本文分步说明如何在Windows Server 2003 产品中为域名系统 (DNS) 配置Internet 访问。DNS是Internet
- 10月16日消息,据国外媒体报道,知识搜索引擎Wolfram Alpha今天开放API,开发者们可以将其纳入自己的应用。Wolfram公司在
- 为什么要学 vimlinux 有大量的配置文件,所以 linux 的文本处理工具也是比较多的,常用的有 less vi head tail
- eWeek网络版刊文称,即使是最忠实的Google“粉丝”,也未必对其发展过程中的奇闻趣事都了如指掌
- 作为一个合格的站长,知道搜索引擎的更新时间和频率是应该的.也是应该具备的一种基本素质,百度作为搜索老大,可以说是万千站长都靠着他,尽管站长们
- 在linux安装软件的时候,我总会有这样的想法,软件到底安装到那个目录下。因为linux系统有别与Windows系统,不是在那个盘创建一个文
- 现在meta标签中的keywords和description在搜索引擎中的地位已经越来越低,原因归咎起来,基本上是由SEO和站长们堆砌关键字
- 面是Godaddy Windows主机支持的组件ADODB.CommandThe Command object is used to exe
- 见到论坛里有部分朋友反映发布内容,内容缩略图选择为“站内选择”方式上传图片,上
- PCIE有四种不同的规格,通过下图来了解下PCIE的其中2种规格 查看主板上的PCI插槽# dmidecode | grep --
- 7月28日消息,有网游爆料称QQ最新版 2010SP1(版本号1760)有巨大漏洞,发送代码之后,打开聊天记录就可以执行。TechWeb从
- 最近体验了一下Godaddy共享主机上的Jsp/Java支持,感觉相当糟糕。竟然不支持struts的应用,至今尚未完全搞明白Godaddy是
- 1.1 第一个里程碑:安装sersync软件1.1.1 将软件上传到服务器当中并解压1、上传软件到服务器上 rz -E为了便于管理上传位置统
- 一、作息时间:能熬夜,不代表你会利用时间,只能说你不会安排时间,每天必须给自己制定严格的作息时间,就是按照这个标准时间来作息,晚上IP流量高
- 上次写了篇ixwebhosting注册免费域名的过程后,有很多朋友就问我ixwebhosting免费域名申请成功后,该怎么管理这个免费域名,
- 下面介绍3种类型的软文给大家,希望能够有所帮助:第一篇·论坛篇写软文之前,我们需要先研究媒体和目标用户,正所谓知己知彼百战不殆。论坛是互联网
- 我以前曾经介绍过将Z-Blog数据库转换到WordPress的SQL语句,做为反例,还会有从WordPress系统转换到Z-Blog系统的S