Google以外17个搜索引擎的创新(2)
作者:张骞 发布时间:2008-03-20 13:08:00
算法改进
这些改进着重于提高潜在的搜索算法以提高搜索结果的相关性并提供新的搜索能力。
7. 参数搜索
这类搜索更接近于数据库查询,而不象文本搜索。它回答的问题从本质上不同。参数搜索有助于发现问题解决方案,而不是文本文档。比如,Shopping.com允许你用材料、品牌、风格或价格不同来限定衣服搜索;像indeed 这样的招聘搜索网站让你限定搜索匹配的邮政编码;GlobalSpec让你搜索工程部件时指定多种参数(如搜索工业管道时输入各种参数)。参数搜索是垂直搜索引擎的天然特性。
Google已在通用层面上组合了这一特性,比如在高级搜索页面上的参数,但是冲淡了它的有用性。当你深入进标准的搜索结果,或当你限定搜索某一特定垂直领域时,附加参数的强大功能最能充分体现出来。
8. 社会化信息输入
Yahoo! 的Bradley Horowitz相信社会化输入未来将是搜索技术一个重要的分水岭(微软也有同样看法)。来自大量用户的聚集信息输入使搜索引擎受益于群众的智慧而提供优质的搜索结果。当然,如果某些个别的输入缺乏独立性或可能是故意捣乱,搜索结果可能会无效。 在这一领域中提供的不同的服务中,del.icio.us 是根据这一方法提供优质搜索能力的典范。[在我较早发布的文章中,作了一个基于“外包给群众(crowd-sourcing)”的不同解决方案的可搜索性能的对比。] 其他基于用户评价的系统包括StumbleUpon, Squidoo, About.com,当然也有Wikipedia。尽管严格来说,它们不是搜索引擎,它们都可以归结于可搜索性的总体框架之内。
当然,Google那功勋卓著的网页排名(PageRank)算法也隐含地根据社会化输入。由于网页排名(PageRank)的一个重要组成部分是基于不同网站的外部链接的数量和特点,那些外部链接担当了收集群体智慧的隐含投票。
9. 人工输入
为了有一个完整的认识,把这一类包括进来。像ChaCha这样的搜索引擎正在试验用人工操作员来回答搜索查询。 值得讨论,Yahoo! Answers是否也是这一领域中的另一种解决方案,尽管这些答案由其他用户,而不是为搜索引擎工作的人来提供。
很难看出ChaCha这类方法怎样扩大规模,除非它设法利用社区资源。
10. 语义搜索
最近搜索领域一些令人激动的新发展与从整个网络中提取智能信息有关。 这些应用刚刚开始,他们表达了语义网络的巨大潜能。这一领域早期的先行者包括:Monitor110,它试图从网络上提取可作为行动参考的金融信息,金融机构投资者们可能对这些信息有兴趣;Spock,“搜人”引擎(现在正处于封闭测试阶段),它计划在启动时数据库中有1亿份档案;Riya,一个视觉搜索引擎,其技术能提供照片的面部和文本识别。
11. 对发现的支持
与个性化和代理技术并肩的是发现技术,这是搜索的圣杯。尽管即时需求的搜索现在是最流行的,但大部分用户在长时间内有相当稳定的兴趣。如果你能发现新的数据源,特别是当优质的feed出现时,岂不是很爽?
在这一方向上已经有了一些试探性的尝试,将搜索与RSS的力量联合起来,比如你已经能建立一个RSS feed来输出许多 Google 和 Yahoo!中的搜索内容。Bloglines已经支持“特荐Feed”的功能--很明显,feed读者很适合在你感兴趣的领域推荐新的博客和feed(基于你的OPML文档的内容)。这一领域中还有Aggregate Knowledge,它通过从多处网站匿名收集信息来为零售和媒体提供专业化服务。总体而言,这将来会是一个令人激动的领域!
结果显示和后处理
这些改进着重于改善结果显示和为查询后提供的“下一步”功能。
12. 分类、标签云和聚类
像Quintura和Clusty这样的搜索引擎根据标签和关键词提供结果的聚类。它不仅让用户看到结果本身,也使结果的聚类及结果之间的关系可视化。这一元信息(meta-information)能帮助用户领会结果并发现相关主题的新信息。
13. 结果可视化
图片比文本结果更容易让人的大脑理解和记忆。在比聚类更普遍的水平上,用专门的图形用户界面来显示搜索结果及结果之间的关系,能传达给用户更多的意义并使用户感觉到“大方向”。在某一特定的上下文中,这一方法效果特别好,比如垂直搜索引擎。 Thinkmap的Visual Thesaurus,Inxight Software的VizServer和房地产搜索引擎Trulia的HeatMaps都是使信息可视化的新方法的例子,尽管在这一领域的研究还处于早期阶段。更简单的一个应用,HousingMaps是一个显示可租/售房屋位置的聚合。
14. 结果提炼与过滤
搜索后下一步经常是通过进一步的对结果的提炼并“深入进”结果里去。这不同于我们在Google已经用到的“关键词修改”,它不仅仅是用关键词组合来试验提交新的查询,而是试图确实地提炼结果[等于是在SQL查询的“where”子句中增加更多的条件],这将使用户收缩其结果并趋近于想要的答案。
查询提炼是搜索处理的重要部分,尽管它还没有引起应有的注意。一个好例子是医疗搜索引擎Healia,它允许用户通过使用人口特质过滤器来改动卫生保健搜索结果。这很重要,因为人口特质,比如年龄、种族和性别可能对症状、疾病和治疗用药的搜索结果有很大的影响;还有基于发现结果的复杂性、来源和类型的过滤器。
Google最近在其结果页面底端引入了一个新按钮:“在结果中搜索”,这是正确的一步;结果还可以通过现有的 OneBox插件和相关的Plusbox新功能来提炼。随着时间的过去,我们可以期待这一功能会日益成熟。
15. 结果输出平台
由于社会化媒体和在线内容变得更加流行,用户数字信息可选择的数量继续增加;相应地,搜索引擎必须支持多种输出平台,包括:网络搜索,移动设备,RIA(丰富互联网应用程序 Rich Internet Applications),RSS,电子邮件等。随着从不同设备接入网络更加普遍,未来的用户很可能会将更加非传统的资源来连接搜索引擎,比如:用TiVo(译者:一种可以录制数字电视节目的系统。)系统来搜索感兴趣的电影或节目,用Nintendo(任天堂)系统搜索在线游戏,甚至用冰箱的触摸屏来搜索菜谱。
现在的一些搜索引擎已经支持标准的网络浏览器和移动设备之外的附加的平台。网络搜索引擎Plazoo提供RSS feed 已经很长时间了;Quintura起初根本就是一个可下载的RIA应用,现在这个搜索引擎刚刚开始提供网络界面。
为许多不同的结果类型提供支持的最简单的方法是提供开放的API,使第三方开发人员能为专业化的目标平台创建定制的用户界面。Alexa网络搜索平台是最先提供开放的API的平台之一(尽管你自己承担使用该API的风险),其他可用的API包括oodle, zillow 和 trulia。
当然,Google也为几种不同的产品提供API,比如Google Base, Google Maps 和 AJAX 搜索API,尽管不是为主搜索引擎提供。手持设备能通过Google Mobile获得支持;Google Base 和 Blogsearch已经提供了RSS输出。
16. 相关服务
严格来讲,这并不是搜索功能本身的一部分。但是,一旦你完成一个查询,经常下一步自然地就是跟随这一搜索的结果。比如,你搜索工作机会以后,你就会想申请你发现的招聘岗位。从最终用户的有用性来看,这是搜索引擎全部功能的内在部分。
令人吃惊的是,这一特征除了显示与上下文相关的广告外,还没有被许多搜索引擎重点开发。这一方法的完美的例子是这个有一个有趣的名字的搜索引擎: the web's too big(互联网太大了),它能使用户搜索英国的公共关系机构的网站上的信息。他们提供一个有趣的附加功能:用户能输入他们的想查询的有关公关的详细情况,点击一下就可以直接提交给多个公关机构。类似地,房地产搜索引擎Zillow提供Zestimate(Zillow计算的房产的估计价值)的概念,以及房产问答的功能。这些类型的附加服务增加了提供给用户的搜索结果的价值,也使这个网站更有“粘性”。
Google在它的一些产品上也提供附加服务,比如在Google Maps上的“寻找商家”,但并不是在它的主搜索引擎上。
17. 搜索代理
搜索代理与持久兴趣的搜索和把搜索结果作为feed输出这两个方向密切相关。设想某个软件有一种定期搜索查询的功能,监控网上感兴趣主题的更新信息,收集并整理结果,移除重复信息并以汇总的形式定期报告给用户。这对某些类型的、重要的但并不立刻需要结果的连续性搜索非常有用:比如,监控感兴趣的招聘、按特定参数设定的在售新房、降到某特定价格的衣服等。
Copernic是这一领域的有趣的服务—Copernic搜索代理能自动运行已存储的搜索,提供新结果的汇总,还能跟踪网页的变化。来自Connotate Technologies的Information Agent Suite挖掘“深层网络”并自动进行变化探测。更多搜索代理的例子,详见读写网(Read/WriteWeb)的一篇文章,介绍了Allth.at及Swamii 和Searchbots.net。
结论
很明显,Google不会坐以待毙的。正像它把个性化搜索引入到它主要的搜索引擎上,当这些其他的方法成功时,Google将继续把这些方法集成到其主搜索引擎上。比如,垂直专业化搜索是Google肯定会用的强大工具。
将来很可能在Google首页上简单的“搜索框”后面会隐藏着多种专业化搜索引擎。另一方面,试图勉强加入这些数量日益增加的复杂特性,将可能使Google或任何其他主流网络搜索引擎的整体结构非常复杂而难以改变,因此如何取舍将是越来越困难的挑战。在Software Abstractions博客的一篇文章中,我们看一看集成了上述大部分功能的主流搜索引擎的概念结构。
猜你喜欢
- 一.网站制作,内容管理系统(CMS)的大量应用使得如今制作和维护一个网站的人力成本得以大幅下降,尤其是在内容更新上,一个不懂HTML语言的人
- 本周一Google公司对外宣布推出三种还处于测试阶段的新搜索模式,这些新功能能对同一关键词得出不同的搜索返回结果。1月31日消息,据国外媒体
- 5月25日消息,据《华尔街日报》报道,谷歌在周一首次披露了与搜索和内容发布商分享广告收入的方式。此举是谷歌针对网站发布商和监管机构要求其提高
- 网页游戏公司的原罪网页游戏发展至今已经不是什么新鲜玩意了,在传统网游快速增长的大环境下,无论是市场、用户还是投资方都已经充分认可了网游的盈利
- 初级安全篇1、物理安全服务器应该安放在安装了监视器的隔离房间内,并且监视器要保留15天以上的摄像记录。另外,机箱,键盘,电脑桌抽屉要上锁,以
- 2008年,伴随着免费开源的SNS建站产品UCenter Home的推出,国内产生了诸如同事录、5G、空姐网、站长俱乐部、大学生、社交游戏等
- 每周我都会拿到两到三个网站设计的订单,有些是从老客户那里来的,但更多的是来自一些不相识的随机出现的人那里,有时甚至来自一些网络名人或者是知名
- 服务器安全一直以来都是大家关注的一个热门话题,虽然服务器安全问题很棘手,不过我们也并非无计可施。我想各位朋友可从以下几个方面着手,就能够做到
- 人们上网都是为了查找并欣赏自己所需要的东西,如果你的网站没有什么内容,人们看一眼就走了,没有回头客,那么你的网站就是每天就是有一万个流量,也
- 1. 登录godaddy账户,再产品列表中点击Hosting Account List进入主机列表。如下图所示2.点击要管理的主机域名后面的
- 在川外成都学院就读的肖曦怎么也没想到,帮朋友在淘宝上买游戏充值卡的他竟然遭遇“钓鱼”网站,瞬间被骗走
- 在windows 2003 server中编写asp代码,你可能会碰到下面的错误提示“不允许的父路径”,涉及到的代码有:Server.Map
- wordpress默认的在首页显示最新评论的样式是“评论者+被评论的文章标题”。这样显示最新的评论不会给后面的浏览者一种很直观的感觉,如果想
- 9月23日,作为全球最大的中文搜索引擎公司,百度公司在中国互联网协会、中国通信标准化协会指导下发布了国内首个《搜索营销标准与规范》。百度公
- Google AdSense英文关键词价格要远远高于中文关键词,初略观察,有实力的同学,做英文站也许是这个经济形式下的一个不错的选择。并不是
- 启用并配置文件服务Windows Server 2003的管理工具中有一项功能叫做“管理您的服务器”
- 百度排名=搭配合理的META+合理的关键字布局+有效的内链+适当外链+网站历史+用户需要的内容合理的MATA 怎么叫合理呢?百度比较看重的是
- 有句古话说得好:创业容易守业难,互联网创业亦如此。简单网站只要网上买了域名和空间,用成熟开源的cms系统,24小时之内网站就能上线,接下来就
- 百度一下:衬衫、香水、鲜花、旅行包,你会看到如下图所示(点击查看大图):百度搜索中,很多(不断增加中)热门关键词,均有“有啊”的“推广”。让
- POP3(Post Office Protocol 3)即邮局协议的第3个版本,它规定怎样将个人计算机连接到互联网上的邮件服务器和下载电子邮