位置：首页>> 网站运营>> 帝国cms采集图文教程（中）（2）

帝国cms采集图文教程（中）（2）

　　发布时间：2012-03-12 20:26:52　

标签：帝国cms,采集,教程

这一页里除了已经采集到的第1条分页外，还包括了第2，第3，第4，第5，第6，第7，第8，第20条分页，但是第9到第19条分页并没有列出来，这时候我们拿用第1页和第2页的代码来进行对比分析，来确定分页正则：

（1）第1页代码：

（2）第2页代码：

从这两幅图片可以看到他们有着相同的“分页区域开始代码”，“分页链接”格式，“分页区域结束代码”，那么就可以确定“分页区域正则”，“分页链接正则”。

3、取得分页区域正则（[!--smallpageallzz--]）：

4、取得分页链接正则（[!--pageallzz--]）：

5、为了方便教程显示，newstext我采集了标题而不是采集内容，预览结果：

注意事项：

第一、在第一页的页面HTML代码里，内容分页链接全部列出来的情况下我们使用“全部列出式”。在第一页的页面HTML代码里，内容分页链接没有全部列出来的情况下我们使用“上下页导航式”。

第二、用全部列出式时，采集规则正确但是莫名其妙的出现重复的分页，这时可以利用替换法把它过滤掉（下一讲我们再说）。

第三、用上下页导航式时，老是采到第1页，其他页连个影子都没有见过，这是因为分页区域正则（[!--smallpagezz--]）截取错误。

第四、用上下页导航式时，可以采集到前几页了，但是接下来这前几页全部重复循环到底，这也是因为分页区域正则（[!--smallpagezz--]）截取错误，截取范围过大，导致重复截取前几个分页链接。

好的，这一讲就到这里，下一讲我们主要介绍帝国cms采集过滤和替换。

本文由国外网站大全http://www.kguowai.com/ 原创，转载请注明出处，谢谢！

第一页上一页 1

2

0

投稿

猜你喜欢

一句话式问答网站优化常见问题整理（四）
1、如何保证百度能每天收录站点新增加的页面？解答：站点保持每天更新好的内容，平稳增加一些鲜活的外链，一段时间后，就会每天都被更新了，这个过程
酷我音乐盒炫酷首推李宇春专版皮肤
在刚刚过去的“酷我”粉丝打榜第三季——酷我音乐盒2009版上
服务器防入侵维护的5个步骤总结
近期读了一些关于网络入侵的文章，感觉到增强网络安全是一项日常性的工作，并不是说网络设备、服务器配置好了就绝对安全了，操作系统和一些软件的漏洞
Godaddy如何创建Google站长管理工具帐户？
GoDaddy.com, Inc. 已与Google合作，来为你提供一种你在创建你的共享托管账户是就可以用来立即登陆你的网站数据的站长管理工
QQ邮箱将限量推出vip邮箱帐号注册
英文帐号@vip.qq.com是QQ邮箱全新提供的vip邮件地址(免费)，连同@qq.com地址，QQ邮箱真正实现了一个邮箱两个域名。vip
在Google AdSense帐户中使用谷歌分析工具
我们一直致力于为发布商提供充足的数据信息，从而让您更好地了解自己的网站运营和广告效果。现在我们很高兴地告诉大家，AdSense 帐户将会融入
DedeCMS如何SEO的探索(1)
按照计划,我应该研究一下Dedecms如何SEO了.说到DedeCMS,相信很多站长都在使用,因为她的简单,易用(这里我不说她的开源,是因为
用Foxmail搭建邮件服务器
Foxmail Server（以下简称FMS）可以搭建出功能强大的邮件服务器。本文以FMS For Windows 2．0为例，从其设置、管
Linux操作系统下防范黑客的实用技巧
Linux是一个多用户的系统，一旦人家取得你的root用户之后，他就可以在你的系统上为所欲为了，由于单用户对系统有完全的控制权限，如果操作不
网赚的乐趣与美刀无穷奋斗精神更应该无穷
了解网赚，有一年整了。注册，点击，投票。都做过。首先说注册，注册是一个简单，但麻烦的任务，有些地方是限制地区的，有些地方是限制时间的。很多广
优化网页广告代码以及速度
这是我不小心遇到的呵!昨天在同类(免费资源)站看到我朋友载入的广告代码<DIV class=ggad><span id=&
门户网站没有草根网站有前途
草根网站比门户网站更有前途，此话并非空穴来风，在网络发展不停的泡沫和务实中挣扎中，无数的web2.0 等概念性的网站，越来越经受不起现实的压
解决Exchange中服务器不能发送信息问题
在Exchange环境中，信息不能被发送的原因有很多。例如，通信线路可能出现故障，或者域名解析器(DNS)可能出现了问题而不能解析接收域。在
使用反向代理技术保护Web服务器
随着Internet的发展，很多机构都将自己内部的网络连接到Internet上，因而网络安全问题越来越重要。一、现有防火墙技术及其局限性为了
DEDE:验证码从字母换到数字,数字加小写字母组合方式
输入字母验证码，俺觉得特烦，特别还要输入大写字母。于是找到文件并修改成数字验证码。修改文件验证码文件位置include\validatei
如何解决google adsense 加载慢的问题
解决Google AdSense广告加载的问题，在网页上放置了Google AdSense广告代码，可能会碰到Google AdSense广
李欣荣：从瑞星与360针锋对决中看事件营销
我使用瑞星杀毒软件已经有一段时间，近日，打开计算机的时候发现右下角频频弹出瑞星的“声明”窗口，于是，对该事情进行了一个了解。在此，李欣荣就瑞
站长赚钱不能单靠广告
简介本文章主要介绍本人开始进入手机行业后，利用网站结合商城赚钱的心得与方法,网络上有很多的赚钱办法,只要你愿意思考,就没有什么是想不出来的！
IXwebhosting优惠码使用详细教程
最近购买IX主机的用户非常多，虽然IX推出了中文页面，但是购买过程仍然是英文的。所以笔者这里主要讲解一下如何使用优惠码来获得最低的价格购买。
Serv-u本地权限提升漏洞的终极防御
Serv-u Ftp server(以下简称Serv-u)是一个应用比较广泛的Ftp Server，功能强大，使用方便，Serv-u>

二十八个让关键词排名明显改观的优化技巧

通过Google AdSense 广告使闲置资源收益最大化

Discuz! X2调用活动主题并过滤内容中的图片

DedeCMS V5.3自定义模型使用教程详解

齐唐网站运营日记之网站运营篇

高效管理服务器的几个技巧

不用Google Adsense的84个赚钱方法

Discuz! 6.1插件安装方法&技巧

GoDaddy常见问题之如何在共享主机帐户上使用Password Vault?

JavaEye主机遭ARP攻击官方切换网段应对

秒客传奇：今天你“秒杀”了吗？

CSS expression在IE8里正式退出历史舞台

用JS找出字符串中出现次数最多的字母

mysql中普通索引和唯一索引的效率对比

如何修改Editplus让图片自适应界面大小

dedecms5.1sp1的TAG重复不显示BUG解决办法

深入分析SQL Server的数据转换服务

雅虎CEO因病缺席分析师会议遭嘲讽

关于Internet Explorer 8

Photoshop CS4(Camera Raw 5)新特性

手机版 网站运营 asp之家 www.aspxhome.com