Google服务过程中的秘密
作者:齐宁 来源:艾瑞网 发布时间:2007-12-25 12:19:00
Google是我最喜欢的搜索引擎,我被Google的精神而折服,被Google的文化而感染,我可以说是Google的超级粉丝之一了,今天看了一些东西,与Google的爱好者,以及想了解Google的人分享一下。Google,真不愧为世界最强的搜索引擎。下文为Google在为搜索引擎提供搜索过程中的服务过程.
1、搜索框
一切以任何人在网络上展开搜索为起点。任何关键词,比如:微码互联
2、域名服务器
Google域名服务器上的软件,运行于公司在全世界租用的或自有的数据中心上,其中包括在曼哈顿老港务局的一台电脑。它们唯一的目的,是计算出哪些集群此刻最不繁忙,以便尽可能高效的“指引”这些搜索进入Google的集群。
3、集群
这些搜索请求一刻不停地留入Google分布在全球的各地数据中心的至少200个集群中。
集群控制器,Google天赋表现在它的网络软件上,它能帮助一个集群中的成千上万台廉价的电脑像一个巨型硬盘一样工作。那些便宜的电脑允许Google在不停止整个“表演”的情况下替换局部组件:如果一台电脑死机了,至少有两台其他的电脑做好了替代它的准备,此间,工程师会把那台坏了的电脑换下。
4、网络服务器
这个程序把一个查询分摊给成千上万台机器,以便它们能在同一时刻为此次搜索服务。这种差异好比以前是你自己一个人去杂货店买东西,现在有100个人同时帮你找东西,然后把它扔到你的手推车里。
5、索引服务器
Google所以知道的一切都存储于一个巨大的数据库中。Google有上百台电脑同时扫描它的“卡片目录”以找到每一个相关的条目,而不是仅用一台电脑筛选这些十几亿的字节。热门的搜索词语会被缓此存储在内存中几个小时,而不是重新再搜索一遍。
6、档案服务器
在索引服务器把所有的结果汇编后,档案服务器抽出所有相关的文件---巨大的数据库里的链接和文章摘录。Google如何做到快速地搜索页面?其实它没有。Google在它已建立了索引的档案服务器中保存了三份互联网上的所有资料,这些资料都已经分门别类,做好了被使用的准备。
容量:基于一些Google发布的极有限的数据,专家猜测,Google服务器至少存储了20个perabytes的数据(1pb等于100万G)。不那么保守的《连线》杂志则说,Google可能有200个pb的容量。如果你的IPOD只有1perabytes,你就能存储大约2亿首歌。如果你要在高速互联网上下载1perabyte大小的东西,你的曾曾曾曾孙可能在2514年后一个字节传完时仍守在电脑左右。
7、拼写服务器
GOOGL并不阅读词汇。它寻找这些文字的模式,或者是英文或者是梵语。如果它根据你的搜索请求的模式得到1000个结果,但却找到一百万个由一个类似模式得到的结果,它会把这些点连接起来,并礼貌地询问你是否愿本想要查询这些词语,尽管你的肥手指可能把“对冲基金”错拼成“对葱基金”。
8、广告服务器
每一个查询都同时通过一个广告数据库,与之相匹配的数据会被送至页面服务器,以便它们能出现在搜索结果显示页。广告团队在跟搜索团队赛跑。Google立志尽可能提高搜索速度。如果广告匹配的结果所花费的时间比搜索结果用时更长,它就不会呈现在页面上,Google也就不能再此项搜索上赚到钱。
9、页面生成器
Google的页面服务器它对某一项查询的成千上万次搜索结果收集起来,组织所有的数据,然后把这些机灵而又简单的搜索结果呈现在你浏览器的窗口中,整个过程比你读这个局在所花的时间还要短。
10、显示结果
一般为0.25秒,或者更短。
Google机器人:
Google部署了一项称为蜘蛛(spiders)的项目,为的是建立它自己的互联网副本。在一些热门的网站,googlebot可能一小时内要跟踪若干次该网站的链接。每一次搜索,“蜘蛛们”就会把每一篇文章获带脉的每一个字都保存下来。原始数据将会被搜索集群中,穿过整个工厂,并且有计划地加速替换掉那些在索引服务器和档案服务器中的数据,从而保证搜索结果是新鲜的,而非静止的。
页面排序:
当GOOGLE形成了一个搜索结果清单时,通过对内容200多个因素分析,Google会决定一个网站有多可靠。这个网站的内容有多重要。Google方式的秘密是,它会通过每一个网站被其他不同网站链接的情况,对该网站的重要性做出评估,换言之,一个网站能否视为可靠,很大程度上取决于链接它的那些网站的质量。
电力:
只有一件事会限制Google的表现,那就是公司能买多少电。他最新的数据中心之一(编号:项目02)位于俄勒冈州的哥伦比亚河附近,这个数据中心使用着18亿瓦特低价的水力发电站的电。这并非偶然,这正是亚洲与美国网络的连接处。这个“字节工厂”有两个电脑中心,每一个都有一个足球场那么大。
本文首发艾瑞,转载请注明作者信息.谢谢!
齐宁 MSN:i@qining.org column.iresearch.cn/u/qining/


猜你喜欢
- 安全专家正在敦促Linux服务器和工作站的用户立即采取措施修补在Linux内核中发现的两个缺陷。这些缺陷可以影响到目前所有版本的Linux,
- Exchange 2000 Server中的Recipient Policies是一项重要的功能,它制定了收件人的邮箱地址,其中包括:X.4
- 大家如果在 Ubuntu 系统中出现中文乱码,可能是因为系统没有配置中文字符编码。解决方法Ubuntu 系统的字符编码保存在文件 /var/
- 通常地,大多数Web站点的设计目标都是:以最易接受的方式,为访问者提供即时的信息访问。在过去的几年中,越来越多的黑客、病毒和蠕虫带来的安全问
- 如果要允许用户在站点中上载或下载文件,就需要在 Web 服务器上设置 FTP。无论站点是位于 Intranet 还是位于 Internet
- 7月17日, Unisys今天在业内率先发布了针对Transaction Processing Performance Council (事
- ProFTPD是一个Unix平台上或是类Unix平台上(如Linux,FreeBSD等)的FTP服务器程序,它是在自由软件基金会的版权声明(
- 几个月前我问网友:对于网赚联盟营销,他们最希望了解什么。经过筛选,我挑出了15个问题。然后找到了三个朋友,让他们来回答这15个关于网赚联盟
- 一个文档标题,最好的定义方法是什么?要回答这个问题,先设想我们要在一个页面上定义文章的标题,通常我们有三个方法来实现这个简单目的:方法一:
- 回想初建设的一个个人主页,没有过多的想法,只是做自己喜欢的。可随着自己的认识越来越多,倒越来越迷惘了。做一个主页,要考虑页面的大小,因为这会
- IDEA 2020 配置Tomcat的步骤如下所示:第一步 下载Tomcat官网链接:http://tomcat.apache.org/选择
- 今天介绍下Godaddy主机用户应该如何压缩文件。随着托管账户内容的增加,压缩及archive文档的能力对简化账户维护及文档储存大有裨益。另
- 内容优化仍是目前SEO活动最关注的,因为你会不断地为网站或是博客增加内容,因此总有新的机会可以改善搜索引擎的可视度。但要在任何网站找到正确的
- 很多热门论坛都会给会员提供FTP资源下载,达到一定等级的会员就可以免费登录这些FTP服务器下载诸多共享资源,如影视、技术资料、常用大型工具软
- 一项加强服务器安全的新技术就是“客户端操作系统虚拟化”---它的原理就是使用一个特殊的虚拟化引擎来使一个虚拟化的来宾实例运转,或者是使在一个
- index.php index.htm defaut.html答:修改.htaccess。.htaccess可以做大量范围的事情,包括:文件
- 1.输入命令:[root@master ~]# crontab -e2.添加:*/5 * * * * /usr/share/nginx/sp
- 查看本机DNS服务器的方法很简单,首先要进入命令行界面。以WinXP为例,开始 -> 运行 -> 输入CMD确定。就可以进入DO
- 微软的Windows Server 2003中防火墙的功能如此之简陋,让很多系统管理员将其视为鸡肋,它一直是一个简单的、仅支持入站防护、基于
- Corel旗下的WinZip Computing 公司今天宣布推出 WinZip 14.0。WinZip 14全新支持微软Windows 7