帝国cms采集图文教程(中)
发布时间:2012-03-12 20:26:52
标签:帝国cms,采集,教程
上一讲我们介绍了帝国cms采集基本流程,那么我们这一讲介绍帝国cms如何采集内容分页。不少的同学在采集过程中,列表页和内容页都能可以很好地设定正则,但往往失败在内容分页正则上,主要是对内容分页正则不了解。帝国的内容分页形式有两种:(1)全部列出式(2)上下页导航式,但是这两种内容分页形式有什么区别,采集内容分页时该用哪种,官方说得比较模糊,对此有些同学感到很头大,好的,我们先看下例子:
一、全部列出式
全部列表式只需看第一页的页面HTML代码,这一页的所有分页链接都列出来了。
1、我们以“中华网内容分页(http://auto.china.com/dongtai/yejie/11012724/20120309/17081442.html)”为例:
可以看到这条新闻总共有3条分页。
2、查看源代码:
这一页里除了已经采集到的第1条分页外,还包括了第2条和第3条分页,所有的分页都列出来了。
3、取得 分页区域正则([!--smallpageallzz--]):
4、取得 分页链接正则([!--pageallzz--]):
二、上下页导航式
上下页导航式是分页采集的难点,他需要所有页面都符合分页正则才行,在不熟悉的情况下,我们可以用第1页和第2页的代码来进行对比分析然后确定分页正则。
1、我们以下网站的内容分页为例:
可以看到这条新闻总共有20条分页。
2、查看源代码:


猜你喜欢
- 由中国互联网协会、中国投资网联合主办的2009WEBGAME与SNS社区运营大会于11月7日圆满闭幕,经过三个多月的游戏征集、系列生态采访和
- 问题:系统重装后,安装和配置SSH,防火墙配置#安装install openssh-serversudo apt install opens
- linux free 命令以及系统内存占用过高的处理[root@localhost ~]# free -m &n
- 一、今天下午由于课程的要求不得已做了Ubuntu搭建Ftp服务器的实验,但是实验指导书还是N年前的技术,网上搜了一大把,都是模模糊糊的!在百
- 由于DedeCms没有将文章的生成地址保存在数据库中,因此需要做的就是索引一个字段:LinkUrl来保存文章生成地址。1、通过Mysql运行
- a,第一次按下ctrl+alt+del后60秒内再按无效,在执行了N多信息搜集作业以后就会将防火墙停用,sshd服务重启; b,如果还是连不
- 康盛创想(Comsenz)旗下的UCenter Home(简称UCHome)新版本即将推出,本期笔者给大家分享下道具“道具转让许可证”功能。
- 解决网站收录问题是SEO的主要任务之一,我每天观察20多个站的收录情况,有些小小心得,下面和大家分享,特别针对百度收录。网站让百度收录有3道
- 一,什么是Sitemaps?Sitemaps协议使您能够告知搜索引擎您网站中可供抓取的网址,使用Sitemaps协议的Sitemaps就是列
- 从去年到现在,百度已经进行了大规模的算法调整。而且现在已经有一个不成文的规律,那就是每个月低的动作特别大,不例外,从上个月低开始,百度又开始
- 用户组在linux 中每个用户必须属于一个组,而Linux下有三种组的概念,如下:文件所拥有者用户所在组其他组文件所有者: 就是文件的创造者
- 10月22日消息,日前,酷6网成为2010年上海世博会“世博公关新星”评选活动视频网站合作伙伴,将与
- 最近在做宜立方商城项目时要求使用dubbo-Zookeeper服务搭建一个SOA服务架构,虽然在Windows环境下也可以启动Zookeep
- 首先确认SERV-U安装好了,并能正确运行。 这里有一个SERV-U扩展库,必须安装在SERV-U3.0版本以上! 这个包一共包含4个文件。
- 建站也不是一两天时间了,关于注册域名哪里好,就把我的经验写下 给大家个参考商务中国 新网数码 新网数码 新网互联 万网 易名 这些国内一级域
- Discuz!7.0取消了视频主题,但是您可以发布外部链接视频。下面将详细介绍下如何发布:一、后台设置1)论坛后台 => 界面 =&g
- 百度公司董事长兼CEO李彦宏(腾讯科技配图)腾讯科技讯(无忌)北京时间8月5日消息,据国外媒体报道,百度首席执行官李彦宏周四在接受彭博电视台
- 北京时间11月6日消息,据国外媒体报道,雅虎与玫琳凯周四向美国德克萨斯州达拉斯联邦法院提交联合文件称,双方之间的法律纠纷已经和解。玫琳凯此前
- Discuz!7.0是康盛创想(Comsenz)公司于2008年12月份发布的一款论坛BBS建站产品。在Discuz!7.0中,界面风格设置
- 一、安装 uwsgiuWSGI是一个Web服务器,它实现了WSGI协议、uwsgi、http等协议,旨在提供专业的 Python web应用