PHPCMS 、帝国及织梦对比分析(十一)之采集功能
来源:pmume.com 发布时间:2011-08-26 12:37:16
提到采集,有些站长抛出鄙夷的眼神,而似乎大部分站长都会觉得是CMS的标配。在落叶看来采集只是一个功能,一个工具,关键看是采什么,采来后做什么,怎么处理采来的内容。大家都知道火车头,一般基本用来采文章,但落叶经常用来采集邮箱,CMS间导数据,基至都用来采过QQ号。火车头的整套流程即使对采集规则了解不多,也很方便来采文章,那么相较之于这种客户端软件,主流CMS中的采集模块,有哪些优缺点呢?
本文中落叶对PHPCMS、帝国CMS及DEDECMS的采集功能作些对比,同时也对采集流程细节作些需求分析。
我们知道,通常的采集流程都是通过列表页分页批量获取内容页网址,然后对内容页分析,获取内容标题、文章内容等信息,因为各目标站的结构不同,采集规则会不同,CMS不可能也不会提供通用的采集规则,那么要考量一款CMS采集模块是否好用基本是由整个采集任务设置流程的易用性、采集的稳定性与效率、采集完入库方便性等方面决定。
1.采集设置流程:
整体体验:
PHPCMS的任务添加流程中直接在TAB菜单的形式列出来网址采集、内容规则设置、高级设置三步骤,每一步中的结构都和火车头比较像,对火车头采集的比较熟悉用户会觉得PHPCMS的采集设置比较明了。DEDE中流程类似,只是没有直接将几步列出,后一步的设置的前提是前一步设置正确。帝国CMS中则是希望用户一口吃饱,从上至下把需要的信息全部列出来。
其实整体都基本三步,没有太明显的区别是,只是三者表现方式的不同给用户的心理感受是不同的。PHPCMS简洁明了,让用户觉得采集很简单,三下两下就设置好了,新手愿意去尝试。帝国CMS中用户一进入采集设置界面顿感压力,页面一直下拖,这么多设置项,首先想到的是“算了,换别的采集”,“这么多填到什么时候,填完了能不能提交还是一回事”,而DEDECMS中把采集过程和设置流程整合起来,优点时可以保证每一步都设置正确,但对采集比较熟悉的用户而言,效率偏低,每次都得POST提交一次测试一次。
网址采集:
PHPCMS网址采集通过列表页分页通配符实现列表页网址批量添加,然后设置所需采集的网址区域,很多时候,对不熟悉HTML采集规则查找技巧的朋友可以通过直接设置“网址中必须包含”和“网址中不得包含”这两项来实现内容页网址的采集。DEDECMS也用*作分页通配符,不过DEDE中的优点在于可以启用多栏目通配规则,针对不同的栏目页批量设置采集规则,这样可以方便对有相同URL规则的多个栏目同时采集。帝国中则也只是一般的以[page]为通配符的多分页获取,相对表现平平。
PHPCMS中提供通过填写COOKIES信息对需要登陆的网站的采集,不过只对深度用户有用,一般用不着,DEDECMS中则提供了防盗链模式的设置,通过填入目标站内容页地址,采集时伪造来源来达到破解简单防盗链采集的目的,这点还是挺不错的。帝国CMS对相对路径的处理提供了填写“内容页地址前辍”的字段,但其实本应该做到URL自动扩充补全的。
内容规则的设置:
内容页规则的设置一般是针对每个字段提供设置匹配规则,同时进行一些格式过滤和信息替换。对比三款CMS,PHPCMS中的字段设置更人性化些,很清晰的实现了匹配信息的提取、信息替换、格式过滤的功能,而DEDECMS和帝国CMS中都直接一个textarea给出,让用户填写正则内容,体验上稍差些。DEDECMS中也以弹出窗口的方式给出了常用格式的过滤的勾选框,直接勾选可以生成过滤规则,表现方式不够明显,不适合新手使用,帝国则似乎完全是针对正则高手的,而实际用帝国的新手用户居多,我很为帝国担心,“有人用他的采集功能么?”
2. 采集稳定性与效率:
采集效率受限于服务器本身及网络环境,各CMS在技术上的差异不大,而稳定性则处决于采集流程及出错处理。这块PHPCMS的优势很明显,支持多线程采集,并以进展条方式展示,在采集中断时可刷新界面断点续采,效率和稳定性个人觉得挺不错。对已采集过的网址记录方式也仿照火车头的方式进行记录,防止重复采集。
DEDE则仍体现在他的细致上,每一步做过很多细节提示,优点的可以清楚知道怎样操作,缺点是太多需要让我思考的地方,帝国CMS似乎对得重复采集未作判断,即使刷新或后退都存在得复采集的情况。
3. 采集完入库:
帝国CMS在采集设置流程中即设置好了所采集的信息所对应入库的栏目,采集过程字段设置也完全与栏目的字段匹配,PHPCMS在采集前设置好了对应的栏目,但各字段并没有绑定,在采集完进行发布时,可以重新选择字段的对应关系,并可对一些字段如关键词、摘要、缩略图、时间等在发布时自动使用函数处理后填充。DEDECMS中在采集时未绑定栏目,发布时选择栏目导入,比较方便,但不支持字段选择。总体,落叶个人还是偏向于PHPCMS的地导入方式。


猜你喜欢
- 06下半年以来,对中国广大的站长来说,是具有特别意义的一年。中国的网络社区突然进入产业的冷静期,但是在这个艰苦阶段中,很多留下来的站长仍然坚
- 一、trac概念Trac是用Python写的一个基于Web的事件跟踪系统,它使用WiKi作为文档的格式,Subversion作为版本控制系统
- 7月18日消息,Discuz!云平台旗下的社区QQ群功最新推出了两个新功能:默认长版显示和绑定群提醒功能。这是Discuz! 云平台自201
- 这是我不小心遇到的呵!昨天在同类(免费资源)站看到我朋友载入的广告代码<DIV class=ggad><span id=&
- Web的大多数安全问题都属于下面三种类型之一:1、服务器向公众提供了不应该提供的服务。2、服务器把本应私有的数据放到了公开访问的区域。3、服
- 4月19日,在“2008第三届中国互联网站长年会”上,蓝色理想创始人曾沐阳在接受专访的时候表示,大家不要轻易做个人站长,要有充分的思想准备,
- 电脑辐射会渗透皮肤激活黑色素母细胞,促使黑色素生成以抵挡辐射,如不适当清洁和防护会导致黑色素沉积或老死在皮肤内不易代谢出使得皮肤容易长斑,肤
- 先说明下为什么要写这篇文章,以及纠结于这个“小问题”。首先开启静态文件的gzip压缩非常有利用提高网站的访问速度,并且有效减少蜘蛛爬行静态页
- 12月3日上午消息,28商机在线(28.com)母公司中网在线(OTC:CHNT)已在美国纽约OTCBB市场通过借壳的方式悄然挂牌交易。财报
- 如果您已经在网站上使用链接单元,也许会注意到一个小小的变化,当访问者点击链接单元标题之后进入广告页面,在页面的底部我们新增了一个图片广告。我
- 本篇文章讲的是提高WordPress自带的搜索功能的体验,使用Google CSE的可以飘过。随着站内信息的增多,站内搜索成为了每个网站必不
- 1.简介tr用来转换或者删除一段文字。tr是translate(转换的缩写),功能的英文示意是:translate or delete ch
- 从事SEO行业的朋友都知道,网站优化最重要的两方面内容一是网站的友情链接质量和数量,另一个方面就是网站内容的质量,大家都在提倡尽量多的原创文
- 外链是搜索优化的一件重磅武器,增加外链主要包括交换链接,论坛推广,博客推广三种,其他的像花钱买广告,挂马找肉鸡,一个是要花钱,一个要技术,其
- 一:查看文件系统块大小sudo /sbin/tune2fs -l /dev/sda1|grep "Block size"
- 隐藏旗标(软件名和版本号)将提高安全性,可能的情况下,也请使用Sendmail以外的其他邮件服务器,因为Sendmail以root运行,比较
- Google中文网站管理员博客在《由抄袭造成的重复内容》文章中提到:“鉴别内容的原创来源是Google所擅长的,在大多数情况下原创内容源都能
- 本文将说明如何在Windows Server 2003中为SMTP服务配置本地域。如何更改默认域的名称、配置别名域以及指定Drop文件夹。S
- 大家可以去Ubuntu官网下载桌面系统: https://ubuntu.com/download/desktop ,虽然最新版是19.04,
- 中文教程https://www.ncnynl.com/category/turtlebot3-tutorial/官方教程https://em