Spider与crawler不同点
作者:小左 发布时间:2008-08-26 11:57:00
写这篇的动力源于上一篇中反复出现的robots,它让我想起了spider(蜘蛛)与crawler(爬虫)。此二者一样?不一样?
以前就看过一篇文章,说此二者不一样,或是严格说不一样。刚才又在网上搜了搜,大部分意见说此二者一样。这个大部分的意见,我就不在此熬述了,网上找吧,一大堆呢。我就这篇说说“此二者不一样”。对或不对,全当个参考,百家争鸣、百花齐放。
在 WebmasterWorld,曾有过个帖子,谈的就是spider与crawler。帖子开始就有一段叙述:
Search engines consist of five discrete software components:
Spider : a robotic browser like program that downloads webpages.
Crawler : a wandering spider that automatically follows links found on pages.
Indexer : a blender like program that dissects webpages that are downloaded by spiders.
The Database : a warehouse of the pages downloaded and processed.
Search Engine Results Engine : digs search results out of the database.
一句话总结一下它的意思,就是:spider与crawler不一样。
帖子里还有个观点,就是说robots有5种,其名称、作用依次是:spider,下载网页;crawler,顺着内链,访问该链接的另一 端;indexer,收录下载了的网页;datebase,下载了的、处理了的网页的仓库;result engine, 从数据库中找出搜索结果。5种?这个观点,我不知道是否正确,不过至少对我来说,够新颖的。
还有人发言道:
Let's talk about how robots interpret your page for a bit. If I follow Brett's historical topic, you have three different types of robots, a spider, crawler and indexer.
First the Spider comes around and requests the URI. It reads server header information and other on page information. Then the Crawler follows all the links within that domain (those that are found and allowed). Then the Indexer reads the html while making heads and tails of it.
其发言者认为robots有3种:spider、crawler、indexer。一开始是spider根据URI,访问进来,接着,读取服务器的header和网页的head标签。然后,crawler顺着spider发现的网页的内链,去访问该内链的另一端。最后,indexer来读取HTML代码。
大家是怎么看待这个问题呢?希望我这篇能起到抛砖引玉的作用。


猜你喜欢
- 自从做卖站以来,遇到的形形色色的人,真是林子大了,什么鸟都有,现在我列出以下几种人,希望卖站新人能从中吸收到一些经验:1)没看清楚卖站的说明
- 如果你有自己的主页,需要经常将自己制作的网页文件上传到几个固定的站点,相信你一定会喜欢下面介绍的“可以编程序&r
- 目前,在广大站长的殷切期盼下,康盛创想(Comsenz)旗下的UCenter Home(简称UCHome)体验站陆续推出了涂鸦版、凑热闹、在
- 问题背景:矿秘书网的历史遗留问题,刚开始由于各种问题,一些动态页面都是用了?id=参数的形式,对seo/seo.html" tar
- 最近有一个用户提出想以文章的标题前缀筛选出文章,想定制一个标签,殊不知这功能在我们系统的标签已经能轻易实现,那最常用的标签“通用信息列表”为
- Adsense不扣量,的确是最值得选择的,也是最多站长选择的广告联盟。很多站长问我,如何提高adsence收入?我这里有4种经过证实行之有效
- 在前段时间写过一篇是关于实际点击价格的计算的,最后得到de结论是,相对于无效点击,无效展示更加危险,这里我们将说一下无效展示的问题。什么是无
- 留白是纸质媒体经常使用的一个技巧。例如报纸版面在配置的时候,并非填充的越满越好,适当的留些空白,不仅美化了版面,而且保证了优质的用户体验。在
- Web服务器存在的主要漏洞包括物理路径泄露,CGI源代码泄露,目录遍历,执行任意命令,缓冲区溢出,拒绝服务,SQL注入,条件竞争和跨站脚本执
- 1.摘要本文主要定义了一种SMTP服务扩展,使用这种服务扩展服务器可以说明它在一个TCP发送操作中可以接收多少个指令。在一个TCP发送指令中
- 题记:在很多相册的网站中,都有这样的功能:当图片分多页显示的情况下,点击图片会自动翻页到下一张图片,接下来我们在dedecms4中实现这个功
- 解决网站收录问题是SEO的主要任务之一,我每天观察20多个站的收录情况,有些小小心得,下面和大家分享,特别针对百度收录。网站让百度收录有3道
- 今日,据国外媒体报道,一家名为Powerset的创业公司正开发能采用“自然语言”的搜索技术,以取代当前流行的“关键词”搜索方式。这个信号无疑
- 对一个地方行业类门户网站来说,如果保持一个稳定的流量是个很重要的问题。很多类似的站点都存在着今天IP5000,明天有可能IP2000,后天1
- 在日常工作中,常有人问到域名解析了不是即时生效的嘛,怎么还是原来的呢?答案就是在本地DNS有解析缓存,电脑第一次访问后,在一定的时间内就将其
- 一. 在卸载VMware虚拟机之前,要先把与VMware相关的服务和进程终止1. 在windows中按下【Windows键】,搜索【服务】设
- smurf、trinoo、tfn、tfn2k以及stacheldraht是比较常见的DoS攻击程序,本文将对它们的原理以及抵御措施进行论述,
- 通常对大型网站的运营指标会有以下几种:外在参考指标:Alexa排名及三个月变化曲线(可以去掉)、Google PR值、搜索引擎收录页面数量、
- 我们知道做好负载均衡对网站的正常运行,用户体验相当重要。在负载均衡中有一个必须要做的事情就是给服务器开启GZIP压缩功能,对用户请求的页面进
- Google AdSense英文关键词价格要远远高于中文关键词,初略观察,有实力的同学,做英文站也许是这个经济形式下的一个不错的选择。并不是