Google以外17个搜索引擎的创新
作者:张骞 发布时间:2008-03-20 13:08:00
有许多新的搜索引擎(最新统计有100多个)都在开创一些搜索技术的创新。下面是一份17大搜索创新清单,我们认为,这些创新将来会是破坏性的(译者:关于破坏性创新,请参见这里)。这些创新分为4类:查询预处理;信息来源;算法改进;结果可视化和后处理。
[其中的某些创新也在Google的存在各种产品中,但是,正如下文所述,Google的主搜索页中不是缺失了这些功能,就是功能还很有限。]
查询预处理
这类改进的主要目的是应用逻辑来尽量预测用户的意图,并由此改进查询的输入。
1. 自然语言处理
这一功能最初是由Ask.com开创的。同期最著名的例子是Hakia 和 Powerset,二者以不同的方式试图理解用户查询背后的语义或意思。这些搜索引擎与Google的很大的不同,是他们认为“忽略词”(stopwords)非常重要,如次要的连词,像by, for, about, of, in等,Google通常会忽略它们。
2. 个人相关性(亦称“个性化”)
长久以来,大家认为按某特定用户的兴趣和要求处理查询,能获得更高相关性的搜索结果。 Google已在其搜索引擎中支持这一功能,但需要登陆才能使用。很多用户理所当然地不情愿这样做,因为这样可能会给Google提供追踪其特殊的搜索内容的条件。 [即使John Battelle也认为这个想法有点可怕,尽管Google的Matt Cutts并不同意这个看法。] 所需要的就是一种虽然是匿名方式,但能提供个性化的搜索方式。从更广泛的角度来说,提供多个网站上的个性化会更加有用。 Collarity就是拥有这一功能的搜索引擎。
3. 定制的、专门的搜索
这是一个简单但强大的功能。这一应用的典型代表是SimplyHired,一个求职招聘的垂直搜索引擎,能提供强大的、预设的搜索,比如“适合年纪大的员工的雇主”、“允许上班带狗的雇主”等。
信息来源
这些改进着重于潜在的数据来源:额外的内容类型和对数据来源的限制,提高了搜索结果的可靠性(减少垃圾信息)。
4. 新的内容类型
今天的年轻人正像交流文字信息一样,在手机上舒服地交流照片和视频,成为这个时代的标记。在网上,富媒体内容-图片、音频、视频、电视等,及与其内容有关的语义信息一起正在 * 性地增长。 搜索引擎也愈加需要相应地支持这些内容类型。一些支持丰富内容的搜索引擎的示例如下:
-富媒体搜索:音频 (odeo, podzinger ),视频(Youtube, truveo),电视 (Blinkx ),图片 (Picsearch, Netvue )
-专业化内容搜索:博客 (Technorati ),新闻(Topix ),分类广告 (oodle )
当然,Google在这一领域也非常活跃,如Google Blogsearch(博客),Searchmash (图片), Google视频, Google新闻等,因此,也许将这一项放在这个清单里不大公平。尽管如此,理想的情况是,将不同的媒体结果集合在一个搜索里,正如Searchmash已经做的那样(Retrevo是另外一个好例子)。
5. 限定的数据来源
最使搜索用户烦心的问题之一是垃圾信息。由于营销商们更加聪明,正日益使用更多侵略性的SEO(搜索引擎优化)技巧,搜索结果的质量就又下降了。 (Google,作为最流行的搜索引擎,更是众矢之的。) 对一系列受信任站点的限制性搜索排除了这一问题,尽管它也缩小了搜索内容的领域—它为某些类型的搜索很好地提供了真实的、优质的结果,比如,当为一个小学项目研究火山时,搜索 * (Wikipedia)、国家地理(National Geographic)和科学/教育站点。
这一应用最好的例子来自A9.com,它能从多种数据来源中提供内容,并允许用户对每一个搜索作出清楚的选择。Google Co-op 和 Yahoo! Search Builder 能使第三方可以创建这种解决方案;Rollyo早已经是这一领域的先行者!
6. 特定领域的搜索(垂直搜索)
通过聚焦一个单一的垂直方向,搜索引擎能提供更好的用户体验,它对某一特定领域更加全面、简明。针对不同的领域有令人难以置信的大量的垂直搜索引擎,更多资料请查看Alex Iskold在读写网(Read/WriteWeb)上的文章或在Software Abstractions博客上的概述。 [要更全面地了解这方面的信息,Sramana Mitra的在线旅游服务概述介绍了垂直搜索与通用搜索的关系。]


猜你喜欢
- 精博的域名已经由 essentialblog.cn 改为 jingpin.org,下面介绍我是如何更换域名的。一、cPanel 上的操作:在
- Linux(Ubuntu) adb 无法识别的问题一般开发公司都开发员都有同时处理不同开发板,因为项目迭代需要。但是不同的开发板的USB并不
- 对于网站的收录与更新,搜索引擎都有它们各自的规律。因此每次网站的更新收录,都牵动着每一个网站所有者的神经。因为更新收录直接影响着百度排名和G
- 惊云下载系统edit.asp文件存在SQL注入漏洞,后台存在任意文件上传漏洞。惊云下载系统以前有个漏洞好象在user.asp,不知现在修补没
- 最近很多用户反映,上网总是掉线。显示IP冲突。据我们监测发现是有些用户在使用某些软件造成的。比如:网络执法官等。为了解决这一问题,请广大用户
- 最近学习了Web开发前后端等技术,便想着将项目部署到云服务器,方便后续管理,顺便学习一下部署云服务器的过程。购买与连接云服务器部署云服务器,
- 北京时间10月14日消息,据国外媒体报道,市场调研公司comScore刚刚披露的9月数据显示,Facebook和Twitter之间的差距正在
- 一、grub.cfg文件介绍1.grub.cfg文件位置/boot/grub2/grub.cfg[root@node1 grub2]# ls
- WSDL设计继承了以XML为基础的当代Web技术标准的开放设计理念。它允许通过扩展使用其它的类型定义语言(不光是XMI Schema),允许
- dedecms5.1sp1 一个tag只能对应一篇文章 其它文章添加TAG相同时不显示不添加文章到TAG目录解决办法:在后台的【SQL命令运
- Google对于公司的内部运作一向口风很紧,但是也确有少数消息可能会被无意中透露出来。Google负责搜索品质监督的副总裁Udi Manbe
- DedeCMS自带Rss功能,在管理后台可以生成出一个Rss地图页面,默认是/data/rssmap.html;这个Html地图文件会告知用
- 昨天晚上的南大科技馆一楼报告厅,曾经有众多跨国公司高层在这里演讲的讲台,昨天被百度董事长兼首席执行官李彦宏“占据”。这位年轻的IT业富豪,在
- 看惯了一个又一个的门户,中国网名究竟能真正容纳几个门户呢?个人站长动不动就做门户,你能和新浪、网易比吗?你有钱吗,有经历吗,有资源吗?个人站
- 1、Google要整合全球的信息,而中国的信息可能会占据全球信息的30%以上。中国很重要。2、Google有自己的价值观和理想,所以有自己的
- 从网上找了一些 最后整理了下1、安装Apacheyum -y install httpd# 开机自启动chkconfig httpd on#
- 大家都知道,刚刚建立好的WordPress,如果不做任何修改的话。是没有keywords,或者千篇一律的keywords、descripti
- 打开文件:require/rebang.php找到以下代码:SELECT tid as id,subject&
- 一、前言对于不习惯英文的人可能想将系统由英文转成中文;而对于考虑客户端如果没正确配置,中文目录可能显示为乱码的人则可能宁愿将系统由中文转成英
- 刚才在经典论坛水区看到有人问“哪里有完整的域名后缀列表?”,上次我花了很长时间整理了一份“顶级域名国家代码列表”。但回复之后,还是被人指出还