SEO Google算法解析系列之HillTop算法
来源:SEO研究中心 发布时间:2009-09-11 16:26:00
今天我们将介绍超链分析的颠峰之作:HillTop算法,作为现在Google现在最核心的排名算法之一,网上不乏大量介绍她的文献。本文侧重于原始算法的分析,不考虑过多复杂因素,让您更容易理解算法本质。
HillTop算法集PageRank,HITs、相关性算法大成于一身,由康柏系统研究中心的Krishna Bharat和多伦多大学的George A.Mihaila在2001年提出并申请了专利,后授权于Google,2003年12月Google算法更新,其成为Google核心排名算法之一。
HillTop是一种查询相关性链接分析算法,克服了的PageRank的查询无关性的缺点。简单的说HillTop算法是针对热门查询关键词来对搜索结果重新排序的一种算法。之所以针对热门关键词,这是因为HillTop算法运行效率较低的原因。算法主要分为两个过程:
一、 专家页面的寻找和评分;搜索引擎根据用户查询日志发现热门关键词后,开始针对这些热门关键词寻找专家页面,成为专家页的2个必要因素,1)必须拥有足够多而且不存在隶属关系的出链,2)至少存在一个短语包含该热门关键词的所有术语。确定专家页以后,在该页面上找出所有全部包含热门关键词中术语、或者差1到2两个术语的短语,将这些短语分为三个等级,分别为全部包含,差1个和差2个术语,分别对这个三等级计算等级分,等级是分对各个等级中所有短语得分的和,而短语得分取决于这个短语在页面中位置,分数从高到低依次标题、头部和锚文本等等,然后的综合计算这个三个等级得分就得到专家分。以下举个简单的以 “汽车消费”这个热门关键词为例,“中国汽车消费网”的首页和友情链接页就是这个关键词的专家页面,因为他具有足够多而且不隶属315che.com主机域名和同C类ip的出链,同时标题中的“中国汽车消费网”也包含“汽车”和“消费”这两个术语。接下来评分,先算第一等级(包含所有术语的短语)的得分,短语“中国汽车消费网”在标题中得到16分(假设),以及在锚文本中“中国汽车消费理财倾向大调查”得了1分,那么第一等级得分为17分,再算第二等级(差一个术语),第三等级(差两个术语)。这样再算三个等级得分的加权和,就是专家分,注意这三个等级权重相差非常大,在原算法的等级1到等级3的权重分别是2^32,2^16和1,因为HillTop更喜欢完全匹配。
二、 对目标页评分;一个专家页对目标页的评分等于专家本身分值×专家页可区分的短语数量。取前N个指向目标页的专家页,对于多个同一隶属的专家页指向该目标页,取分值最高的专家页,然后这些专家页对目标网页的评分的和就得到,这个页面对应这个热门关键词的得分,有人称之为行业得分。
我们可以看到HillTop算法通过不同等级的评分确保了评价结果对关键词的相关性,通过不同位置的评分确保了主题(行业)的相关性,通过可区分短语数防止了关键词的堆砌。
总结:HillTop算法存在一种博弈的思想,在链接方面同行业的网站既需要竞争更需要合作,只有被同行“认可”的网站对热门关键关键词的查询才会被排在前面。HillTop基本毁灭了小网站对热门关键词的奢望,除非你对热门关键词有超强的预期能力,但是这种流量只会持续很短的时间。当然HillTop只是排名的一个重要因素,并不是全部。
本文由中国汽车消费网(http://www.315che.com/) SEO研究中心撰写。
猜你喜欢
- 众所周知,WordPress是个功能强大且颇受欢迎的开源博客平台。WordPress友好的界面和操作的简便性为它带来了无数用户,WordPr
- 无论是使用手工试探还是使用安全测试工具,恶意攻击者总是使用各种诡计从你的防火墙内部和外部攻破你的SQL服务器系统。既然黑客在做这样的事情。你
- 今天有朋友问到了一些关于产品运营的事情,晚上回家找了找以前做过的一些文档,挑了两个不会牵扯保密问题的文档提供给大家参考。这两份文档一份是前期
- 最近这段时间因几个客户的网站连续出现问题,被BAIDU进行降权,甚至被封杀。对于这些出现的问题,我非常的不理解。这些客户并没有进行恶意作弊,
- 在互联网web1.0时代,常用的网络营销有:搜索引擎营销、电子邮件营销、即时通讯营销、BBS营销、病毒式营销;但随着互联网发展至web2.0
- SupeSite 7.0是康盛创想(Comsenz)公司于2009年3月推出的一款社区CMS产品,作为Comsenz旗下的社区产品SupeS
- Godaddy主机用户想要把某个RSSfeed重新定位到另外一个地方的一个新的feed,需要在redirecting .htaccess文档
- 服务器在线12月23日报道 WEB服务器主要是面向互联网的。所以,其是企业众多信息化应用中最容易受到攻击的。现在企业的WEB应用越来越多,特
- Godaddy主机用户怎样编辑新增的FTP用户呢?其实很简单的,你可以轻松地为Godaddy-Linux共享托管帐户或者运行IIS7的God
- 对于Accessible search,网站管理员们最经常问的一个问题就是:我怎样才能提高我的网站在Accessible Search上的排
- 写这篇的动力源于上一篇中反复出现的robots,它让我想起了spider(蜘蛛)与crawler(爬虫)。此二者一样?不一样?以前就看过一篇
- 在局域网内,ARP攻击依然占有很高比例。众所周知,ARP协议的基本功能就是通过目标设备的IP地址,查询目标设备的MAC地址,以保证通信的顺利
- ProFTPD是针对Wu-FTP的弱项而开发的,除了改进的安全性,还具备许多Wu-FTP没有的特点,能以Stand-alone、xinetd
- 网站粘度,指的是用户对网站的重复使用度(依赖度、忠诚度),网站粘度越高,越能体现网站价值。众所周知,服务类(例如游戏、工具等)网站的粘度通常
- 贾君鹏事件事起16日,魔兽贴吧出现一个引人瞩目,看上去又很符合逻辑的帖子标题“贾君鹏你妈妈喊你回家吃饭”,更让人不可思议的事情是这就这样极为
- 1、apache中显示目录列表在http.conf中加入如下代码(如有虚拟主机配置,加在虚拟主机配置段内),并把主目录内的index.pho
- 刚刚在站长网看到这么一篇文章“站长!你愿意干掉你网站的最大绊脚石吗?”,大致意思是让站长们把网站的流量做起来过后就删除统计代码,只顾埋头向前
- 网站备案很无奈,上网搜索了些关于备案的攻略不知道对各位有没有帮助.由于国家信产部一纸奇怪的规定,国内所有的网站都需要做备案了,不备案,搞不好
- 2001年到2003年,亚洲交友中心的免费会员女2美金男1美金,各类的点击冲浪邮件等赚钱联盟数不胜数,那时候可以说就是个拣美金的时代。03年
- 昨天,WebLeOn说“国内好的企业博客屈指可数”,的确。这让我觉得有必要把这个案例分享给大家,之前吕欣欣同学曾一度让我总结个案例给他,无奈