谷歌网站管理员博客:提高跨域选择URL的意识
发布时间:2011-12-01 10:59:02
谷歌中文网管理员博客今日发表博文,针对重负内容网页的URL选择做了相关解析。即谷歌发现一组重复内容网页时,Google算法会选出一个有代表性的URL。一组网页可能包含来自相同或不同网站的URL。从一组不同的网站中选出有代表性的URL,这种选择就被称为跨域选择。
谷歌表示大多情况下,算法做出的选择正确反映了网站管理员的意图。但是在极少情况下,谷歌发现网站管理员不明白为何算法会做出此种选择,也不知如何处理,他们认为算法的选择是错误的。为了使跨域URL选择过程更透明,谷歌特意发布了此文,探讨各种可能出现跨域URL选择的情况,以及如何修复那些站长认为是错误的情况。
以下是博客内容全文:
一份内容一般可通过多个URL获得,而非全部集中在同一域名。几年来我们把用多个URL获得同一份内容,称为重复内容。 发现一组重复内容网页时,Google算法会选出一个有代表性的URL。一组网页可能包含来自相同或不同网站的URL。从一组不同的网站中选出有代表性的 URL,这种选择就被称为跨域选择。举个简单的例子,如果一组URL中一个来自a网站,一个来自b网站,我们的算法选择了来自b网站的URL,那么a网站 的URL就无法再在我们的搜索结果中显示,并且与此内容相关的搜索流量也会下降。
网站管理员通过使用一个目前支持的机制,比如rel="canonical" elements 或 301 重定向 来指示他们的首选URL,这在很大程度上影响了我们算法的选择结果。大多情况下,算法做出的选择正确反映了网站管理员的意图。但是在极少情况下,我们发现网站管理员不明白为何算法会做出此种选择,也不知如何处理,他们认为算法的选择是错误的。
为使跨域URL选择过程更透明,我们正在发布新的有关网站管理工具的信息,试图在我们的算法选择了外部URL而非管理员网站的URL时对网站管理员给予提示。这些信息的工作原理细节可在关于该主题的帮助中心文章中找到,在本篇博文中我们将探讨各种可能出现跨域URL选择的情况,以及如何修复那些您认为是错误的情况。
引起跨域URL选择的主要原因:
很多情况都会导致我们的算法进行跨域URL选择。
多数情况下,网站管理员会发出能够影响选择结果的信号,我们的算法会根据此信号来选择URL。例如,如果网站管理员按照我们的指南和最佳方法对网站进行迁移,这明显表明新网站的URL才是他们希望Google选择的。如果您正在迁移您的网站并在网站管理工具中看到这些新信息,您可以对我们算法给出的提示予以确认。
不过,我们经常看见网站管理员提交问题说我们的算法选择的URL与他们想选择的不同。当您的网站遇到跨域选择,并且您认为该选择不正确(比如选择结果与您所预想的不符)时,您还可以运用一些策略来进行改善。这里有一些导致预料之外跨域选择URL的常见原因,以及改善方法:
1. 重复内容,包括多域名网站上的内容:我们常见到网站管理员在多个域名上使用同种语言和相似的内容。这有时是疏忽所致,有时是以地理区域为标准来决定显示语言种类的。例如,在域名为.com 和.net的网站上,管理员通常会使用英语作为显示语言,而在域名为 .de, .at,和.ch的网站则使用德语作为显示语言。
根据网站和用户的不同,您可以使用一种目前支持的标准化技术来提示算法您希望选择的URL。以下是关于此主题的文章,仅供参考:
* 规范化, 尤其是 rel="canonical" elements 和 301 重定向
* 关于 rel="alternate" hreflang="x"
2. 配置错误: 一些错误的配置会使我们算法作出错误决定。出现错误配置的例子包括:
1.标准化错误:错误使用规范化技术指向外部网站上的URL会使我们的算法在搜索结果中选择外部URL。我们曾在配置错误的内容管理系统(CMS)或网站管理安装的CMS插件上遇到过此类问题。
要修复此类状况,需查清您的网站是如何错误指示规范URL偏好的(例如:通过错误使用了一个rel="canonical"元素或错误使用了301重定向)并进行修复。
2.服务器配置错误:有时我们会遇到主机托管配置错误的情况-a网站内容被返回b网站的URL。当两个无关的网站服务器返回相同软 404 页面而我们又未能发现此错误网页时,以上类似状况会再次出现。这两种情况中,我们都会认为相同内容正从两个不同网站返回,而我们的算法可能错误地将a网站的URL选做了B网站URL的规范偏好。
您需要调查网站服务基础设施的哪部分配置有误。例如,在遇到错误网页时,您的服务器返回的可能是HTTP 200(成功)状态代码,也可能会混淆其托管的不同域名的要求。一旦查到问题的根本原因,您要和服务器管理员一起矫正配置进行。
3. 恶 * 攻击:一些网站攻击会引入导致不良标准化的代码。例如,恶性代码可能导致网站返回HTTP 301 重定向 或在HTML 或HTTP header中插入一个跨域rel="canonical" 链接元素,这通常会指向一个托管恶性内容的外部URL。该情况下,我们的算法可能选择恶性或垃圾URL而非默认网站上的URL。
碰到这种情况,请按照我们的网站清理指南进行操作并在清理完成后递交重新审核请求。如果想要识别cloaked攻击,您可以使用网站管理工具中的Googlebot 抓取功能,这样您看到的网页内容便会和在Googlebot上看到的一样。
极少情况下,我们的算法会未经您的允许,就选择那些包含您网站内容的外部网站的URL。如果您认为另一网站复制了您网站上的内容,违反了版权法,请联系网站托管主机,填写数字千年版权法案政策申请删除那些侵权网页。
总之,如果您在如何认定错误原因或修复办法方面需要帮助,您可以浏览我们关于此主题的帮助中心的文章并在我们的网站管理员帮助论坛上提问。


猜你喜欢
- 关于分区一个潜在的黑客如果要攻击你的Linux服务器,他首先就会尝试缓冲区溢出。在过去的几年中,以缓冲区溢出为类型的安全漏洞是最为常见的一种
- 我不主张以任何恶意去推测站长,我也不赞同以坏蛋假设对待Google。当一个人的Google AdSense账号被停止后,发布者需要的是保持冷
- Godaddy主机用户怎样下载Account Manager里的文件呢?首先、登陆你的Account Manager.其次、在My Prod
- Windows 2000 Server安装成功后,一般会启动一个默认的Web站点,为整个网络提供Internet服务。在中小型局域网中,服务
- 提供高质量的内容和服务创建让人眼前一亮且有价值的内容较之于这个指南里讨论的因素更容易影响你的网站。用户看到后知道你网站上提供的内容质量很不错
- 网站结构您首先需要考虑的就是: 是否需要为您想开展业务的所有有关国家购买针对各个国家的顶级域名(TLD)。如果回答是肯定的话,您的域名可以选
- 一个配置好的MAIL服务器除基本功能外应该具有的其它功能:* 反垃圾邮件能力。检查连接或内容,阻挡某些认为是不良的连接以及信件。* 反病毒能
- 见到论坛里有部分朋友反映发布内容,内容缩略图选择为“站内选择”方式上传图片,上
- linux系统目录结构你清楚吗?1、树状目录结构图2、目录介绍3、/etc/目录4、/usr/目录5、/proc/目录6、/dev/目录7、
- 网站的定位往往就是一句话的事情,但就是简单的一句话却来之不易。为了这简单的一句话,很多网站花了很长的时间,走了不少的曲折之路。网站的定位跟网
- 0x00 前言Docker是渗透测试中必学不可的一个容器工具,在其中,我们能够快速创建、运行、测试以及部署应用程序。如,我们对一些漏洞进行本
- RiS名人专访人物里,这次要访问的是「蓝色理想」BlueIdea 站长(以下简称Blue),他从1999年开始建立了蓝色理想社群,专为网页开
- Easy CGI在1998年成立于美国纽约,专业提供Windows平台的虚拟主机,与Microsoft有良好的合作关系,算是Windows主
- 今天我们来研究一下网站广告如何选择,,或者直接说就是那些网站适合做google的广告站长建站选择好的题材,好的内容也是相当重要的如果你已经选
- 做站也有一段时间了,总的来说,从开始建站到现在,一路的辛酸与快乐只有自己心里清楚,但是,走过来的站长之路也只是重复其它的站长的脚步而已,最近
- 首先,出现错误不要急于重试,重试也没用处,只会让网站封你的ip地址。要根据提示,找出原因,选择正确的方法,解决问题。其次,确认网络可以使用,
- *网站服务器主要任务:根据开发设计需求架设大型的网站服务器主要软件:apache+jboss+oracle 简称:LAJO apache+p
- 站长们辛辛苦苦做站,除了一小部分为了兴趣之外,我想大部分是为了赚钱吧,网赚已经成为互联网的热点之一了,越来越多的网民加入到站长的行列中来,想
- 软件环境:redhat6.2 Qmail1.3硬件环境:HP Netserver E60 128M内存 单网卡1.什么是mail relay
- 如果问哪种FTP服务器最安全?那么在Unix和Linux中,首推的就是vsftpd(Very Secure FTP Daemon,非常安全的