网站运营
位置:首页>> 网站运营>> Spider与crawler不同点

Spider与crawler不同点

作者:小左  发布时间:2008-08-26 11:57:00 

标签:spider,crawler,服务器

写这篇的动力源于上一篇中反复出现的robots,它让我想起了spider(蜘蛛)与crawler(爬虫)。此二者一样?不一样?

以前就看过一篇文章,说此二者不一样,或是严格说不一样。刚才又在网上搜了搜,大部分意见说此二者一样。这个大部分的意见,我就不在此熬述了,网上找吧,一大堆呢。我就这篇说说“此二者不一样”。对或不对,全当个参考,百家争鸣、百花齐放。

在 WebmasterWorld,曾有过个帖子,谈的就是spider与crawler。帖子开始就有一段叙述:

Search engines consist of five discrete software components:

Spider : a robotic browser like program that downloads webpages.

Crawler : a wandering spider that automatically follows links found on pages.

Indexer : a blender like program that dissects webpages that are downloaded by spiders.

The Database : a warehouse of the pages downloaded and processed.

Search Engine Results Engine : digs search results out of the database.

一句话总结一下它的意思,就是:spider与crawler不一样。

帖子里还有个观点,就是说robots有5种,其名称、作用依次是:spider,下载网页;crawler,顺着内链,访问该链接的另一 端;indexer,收录下载了的网页;datebase,下载了的、处理了的网页的仓库;result engine, 从数据库中找出搜索结果。5种?这个观点,我不知道是否正确,不过至少对我来说,够新颖的。

还有人发言道:

Let's talk about how robots interpret your page for a bit. If I follow Brett's historical topic, you have three different types of robots, a spider, crawler and indexer.

First the Spider comes around and requests the URI. It reads server header information and other on page information. Then the Crawler follows all the links within that domain (those that are found and allowed). Then the Indexer reads the html while making heads and tails of it.

其发言者认为robots有3种:spider、crawler、indexer。一开始是spider根据URI,访问进来,接着,读取服务器的header和网页的head标签。然后,crawler顺着spider发现的网页的内链,去访问该内链的另一端。最后,indexer来读取HTML代码。

大家是怎么看待这个问题呢?希望我这篇能起到抛砖引玉的作用。

0
投稿

猜你喜欢

  • 很早前,为了自己注册域名方便,做了新网的代理,平常没事也会注册一些域名,或是有想做站、或是只是觉得有一个好域名值得去注册,最近因为工作上的事
  • 网站管理员们经常会面对诸多需要帮助用户重定向到其他页面的情况。不幸的是,对任意目的地开放的重定向很可能被滥用。这是一个防不胜防的滥用形式,因
  • Microsoft.com 从6月12日开始运行Windows Server 2008 Beta 3到现在已经有将近三个月了。 微
  • 从最近几天吵得热火的Blogbus的“自频道”,到早些时候Feedsky低调推出的“我的博客圈”,再到更早之前的Google Reader的
  • 为了完成这个任务,在网上查了好多资料,要么是讲得不清楚,要么是软件版本太老,走了不少弯路,在这里以本人的实际操作为例,为大家说一下整合的过程
  • 网页游戏联合运营 引领站长盈利新方向8月6日,老牌社区软件提供商动网进军网页游戏领域,推出了“泡泡玩”联合运营平台,将网页游戏以联合运营的方
  • 自从做卖站以来,遇到的形形色色的人,真是林子大了,什么鸟都有,现在我列出以下几种人,希望卖站新人能从中吸收到一些经验:1)没看清楚卖站的说明
  • 首先我相信,每一个走上站长之路的人,绝对是有着极其强烈表现欲望和无穷创造力的人。因为网站就是一个媒体,就是一个信息传播或者交流平台,而站长,
  • 我从05年底开始写博客到07年10月21日开始固定使用Wordpress,不知不觉已经两年多了。使用独立博客期间,换过很多次空间,从国内搬到
  • 作为一个成长中的二流站长,说实话我做网站的目的就是为了赚钱,所以刚一开始我选择了做垃圾站。因为垃圾站能够短期内带来大量的流量,从而在短期内就
  • 登录到Godaddy,然后点解导航菜单 Domain Manager 然后在域名管理页面点击菜单中的 Panding Transfers 这
  • 1、据说淘宝封百度了。必须的。我甚至认为来的有点晚,不够干脆。2、最简单的原因:1》淘宝长期积累和培养出来的商品管理很牛,商家信息很丰富。是
  • 11月12日消息,世界著名的搜索引擎服务提供商Google与国内最大的电子商务软件及服务提供商ShopEx正式达成合作伙伴关系,双方将在目前
  • 内容摘要:互联网就像一个江湖,而网站推广方法就像行走江湖所需要练的武功秘籍。这里给大家分享18种比较有效的网站推广秘笈。1、搜索引擎优化 通
  • 域名跟着关键词的拼音选取在SEO优化当中,域名所占之优势不容客观。大家也是经常会看到在搜索引擎搜索框内输入关键词的拼音搜出的结果往往都是相应
  • 有许多新的搜索引擎(最新统计有100多个)都在开创一些搜索技术的创新。下面是一份17大搜索创新清单,我们认为,这些创新将来会是破坏性的(译者
  • Google日前推出了网站趋势(Google Trends For Websites)服务。这一新工具使用户能看到所有 网站的流量数据,并将
  • Godaddy空间被取消的原因只有一种,Godaddy怀疑你在盗刷别人的信用卡,出现这种情况的原因,是由于你在购买空间的时候,用户名填写不慎
  • ARP(Address Resolution Protocol,地址解析协议)是一个位于TCP/IP协议栈中的低层协议,负责将某个IP地址解
  • 安徽互联网联盟(ahunion.org)公益站长讲座,本期嘉宾——詹鹏,国内知名的网络营销讲师,《詹鹏日报》网络营销博客创始人,各大网站和I
手机版 网站运营 asp之家 www.aspxhome.com