从关键词分析看百度算法
作者:fuqingjiajia 发布时间:2009-09-14 19:11:00
我们都知道关键词分析在算法中起着承上启下的作用。百度在还没调整算法之前所用的关键词分析是最大匹配法:正向匹配法,逆向匹配法和双向匹配法。比如输入小学生作文(用GG):他分割为:小学生/作文(看快照)。百度框计算没出来,算法没调整之前。分割与GG一样。自从百度发布了框计算,他的算法也做了很大的调整。包括关键字分析,超链接分析,域名,收录等。首先他对关键字分析做了很大的改变。我们都知道百度技术大会中所说的框计算就是:用户输入内容-》百度框判断内容是属于算数,购物,股票,外汇还是我们常规的关键词。当我们在百度输入1+1.5的时候百度会直接给出答案。当我们输入股票代码的时候百度会直接给出股票走势图。这一切的一切都是百度所说的提高用户体验。其实说白点就是:百度的关键词分析的算法变了,变成了:“基于理解的分词方法”那什么叫基于理解的分词方法呢?
其基本思想在分词时候同时进行句法,语义分析。模拟人对句子的理解过程。由于汉语语言知识庞大与复杂。这种分词法实现起来是非常的困难。以百度现在的状况只能说明这种系统处在试验阶段。因为只有这种分词算法才能达到用户最想要的结果真正的提高用户体验。但百度用这种方法提高了用户体验吗?
只能说提高一部分,但忽略了根本。一部分就是刚才所说的。输入算数自己给出答案等等。忽略了根本在那呢?就是之前的关键词匹配法。现在百度弄不清方向了,当我们搜索平常关键词(不包括算数,股票,购物等关键词)的时候如:小学生作文为例。第一页排名的都是老站。而且老站的主站一个,子目录一个。有时候还有一些博客的文章。10个位置,重复了3个站。新站呢?基本在第二页。这说明了什么?说明了百度管你三七二十一老站排前,新站第二页去。(老站排前面的原因是什么呢?不知道大家有没有想过。)当我们输入:“小学生作文大全”的时候,百度给出的结果都是网络购物关于“小学生作文大全”书籍的信息。试问一下:有多少人输入“小学生作文大全”为了就是买书?这恰恰又降低了用户体验。
说道用户体验不得不说下SOSO。腾讯搜搜一直都是很低调的。在百度提高用户体验的这些算法。Soso去年就实现并用于实践中,那时SOSO还是用GG的搜索接口。体验度比百度还好。现在SOSO独立了。不用GG的接口。它在搜索平常关键词时候就做到了重复性这个问题。10位置。给了主站位置基本很少给子目录一个位置。相比之下SOSO用户体验比百度强一点。
百度这算法能否再改变呢?能否改变为之前的算法。还是继续他所谓试验中的用户体验呢?我们拭目以待。
猜你喜欢
- 在Windows系统中,磁盘碎片是一个常见的问题,如果不注意,系统性能可能被侵蚀。Linux使用第二扩展文件系统(ext2),它以一种完全不
- 攻击者如此青睐Web攻击的一个重要原因是它可以损害一些无辜的站点,并用于感染大量的受害者。事实证明,Web服务器已经被证明是互联网络中的&a
- FTP命令是Internet用户使用最频繁的命令之一,不论是在DOS还是UNIX操作系统下使用FTP,都会遇到大量的FTP内部命令。熟悉并灵
- 如何将自己的网站加入谷歌资讯索引中技术要求:文章的地址必须是独立的,静态的,并且除了日期外,必须包括至少三个数位;文章标题最好设置成H1,H
- 我以前曾经提到过AdSense上出现腾讯QQ币骗人的广告,对于这种非法广告大家通常使用“竞争性广告过滤”屏蔽其域名,但是却屡禁不止,前几天我
- Docker是一个开源软件,它可以把一个Linux应用和它所依赖的一切(比如配置文件)都封装到一个容器。然而,Docker与虚拟机不同,它使
- 谷歌声称其 AdWords的实时定位和详细报告为客户抵御经济衰退找到了一个有效的方式。 该公司提供了六个详细战术使您的AdWords投资最大
- 分布式Hibernate Search与Apache Tomcat6,ActiveMQ 和Spring.今天我将跟大家分享我的经验,以mas
- 我从去年元月份起,做了三个新站。三个站都遭遇了同样的问题,把我做新站过程中遇到的百度三月之痒写出来,希望对新做站的朋友有帮助。第一个站元月份
- 网上介绍部署ISAPI Rewrite的文章也不少,但大体都是对老版本的介绍,或者比较凌乱,我按照自己的做法结合前人的经验整理了一下,供大家
- 现在,很多人都拥有自己的电脑,并且通过固定的IP连接到互联网。于是,他们开始在自己的电脑上架设服务器。在自己的电脑上架设服务器,无论你使用L
- 内容摘要:随着ASP 技术的发展,网络上基于ASP技术开发的网站越来越多,对ASP技术的支持可以说已经是Windows系统IIS服
- 做了一些试验,baidu的排名顺序大致有以下的规则:1.知名站点2.联盟成员3.非商业站点4.页面的更新时间分析:1.搜索程序是怎么确定一个
- 数据中心操作大量的数据。当数据遭到破坏时,这就是一场灾难。这正是定期进行备份的重要性。即使你有大量的备份数据都没有使用,备份也肯定不是在浪费
- 启用 WSL确定系统为 Windows 10 2004 以后的版本右击“菜单”-&ldquo
- 为什么我的Free Ad-Supported托管网站不能正常显示呢? 如果你的HTML代码使用的是绝对位置,你的网站将显示在广告幅的右边或者
- 百度与站长的斗争个人站长对于百度的SEO,方法有无穷种,单纯靠技术,百度一点办法都没有。于是百度增加了人工干预,打击了不少网站,作弊的,非作
- 在川外成都学院就读的肖曦怎么也没想到,帮朋友在淘宝上买游戏充值卡的他竟然遭遇“钓鱼”网站,瞬间被骗走
- 有消息透露,阿里巴巴旗下身为电子商务教育界“黄埔军校”的阿里学院,为帮助中小企业解决人才缺口问题,正