谷歌网站管理员博客:提高跨域选择URL的意识
发布时间:2011-12-01 10:59:02
谷歌中文网管理员博客今日发表博文,针对重负内容网页的URL选择做了相关解析。即谷歌发现一组重复内容网页时,Google算法会选出一个有代表性的URL。一组网页可能包含来自相同或不同网站的URL。从一组不同的网站中选出有代表性的URL,这种选择就被称为跨域选择。
谷歌表示大多情况下,算法做出的选择正确反映了网站管理员的意图。但是在极少情况下,谷歌发现网站管理员不明白为何算法会做出此种选择,也不知如何处理,他们认为算法的选择是错误的。为了使跨域URL选择过程更透明,谷歌特意发布了此文,探讨各种可能出现跨域URL选择的情况,以及如何修复那些站长认为是错误的情况。
以下是博客内容全文:
一份内容一般可通过多个URL获得,而非全部集中在同一域名。几年来我们把用多个URL获得同一份内容,称为重复内容。 发现一组重复内容网页时,Google算法会选出一个有代表性的URL。一组网页可能包含来自相同或不同网站的URL。从一组不同的网站中选出有代表性的 URL,这种选择就被称为跨域选择。举个简单的例子,如果一组URL中一个来自a网站,一个来自b网站,我们的算法选择了来自b网站的URL,那么a网站 的URL就无法再在我们的搜索结果中显示,并且与此内容相关的搜索流量也会下降。
网站管理员通过使用一个目前支持的机制,比如rel="canonical" elements 或 301 重定向 来指示他们的首选URL,这在很大程度上影响了我们算法的选择结果。大多情况下,算法做出的选择正确反映了网站管理员的意图。但是在极少情况下,我们发现网站管理员不明白为何算法会做出此种选择,也不知如何处理,他们认为算法的选择是错误的。
为使跨域URL选择过程更透明,我们正在发布新的有关网站管理工具的信息,试图在我们的算法选择了外部URL而非管理员网站的URL时对网站管理员给予提示。这些信息的工作原理细节可在关于该主题的帮助中心文章中找到,在本篇博文中我们将探讨各种可能出现跨域URL选择的情况,以及如何修复那些您认为是错误的情况。
引起跨域URL选择的主要原因:
很多情况都会导致我们的算法进行跨域URL选择。
多数情况下,网站管理员会发出能够影响选择结果的信号,我们的算法会根据此信号来选择URL。例如,如果网站管理员按照我们的指南和最佳方法对网站进行迁移,这明显表明新网站的URL才是他们希望Google选择的。如果您正在迁移您的网站并在网站管理工具中看到这些新信息,您可以对我们算法给出的提示予以确认。
不过,我们经常看见网站管理员提交问题说我们的算法选择的URL与他们想选择的不同。当您的网站遇到跨域选择,并且您认为该选择不正确(比如选择结果与您所预想的不符)时,您还可以运用一些策略来进行改善。这里有一些导致预料之外跨域选择URL的常见原因,以及改善方法:
1. 重复内容,包括多域名网站上的内容:我们常见到网站管理员在多个域名上使用同种语言和相似的内容。这有时是疏忽所致,有时是以地理区域为标准来决定显示语言种类的。例如,在域名为.com 和.net的网站上,管理员通常会使用英语作为显示语言,而在域名为 .de, .at,和.ch的网站则使用德语作为显示语言。
根据网站和用户的不同,您可以使用一种目前支持的标准化技术来提示算法您希望选择的URL。以下是关于此主题的文章,仅供参考:
* 规范化, 尤其是 rel="canonical" elements 和 301 重定向
* 关于 rel="alternate" hreflang="x"
2. 配置错误: 一些错误的配置会使我们算法作出错误决定。出现错误配置的例子包括:
1.标准化错误:错误使用规范化技术指向外部网站上的URL会使我们的算法在搜索结果中选择外部URL。我们曾在配置错误的内容管理系统(CMS)或网站管理安装的CMS插件上遇到过此类问题。
要修复此类状况,需查清您的网站是如何错误指示规范URL偏好的(例如:通过错误使用了一个rel="canonical"元素或错误使用了301重定向)并进行修复。
2.服务器配置错误:有时我们会遇到主机托管配置错误的情况-a网站内容被返回b网站的URL。当两个无关的网站服务器返回相同软 404 页面而我们又未能发现此错误网页时,以上类似状况会再次出现。这两种情况中,我们都会认为相同内容正从两个不同网站返回,而我们的算法可能错误地将a网站的URL选做了B网站URL的规范偏好。
您需要调查网站服务基础设施的哪部分配置有误。例如,在遇到错误网页时,您的服务器返回的可能是HTTP 200(成功)状态代码,也可能会混淆其托管的不同域名的要求。一旦查到问题的根本原因,您要和服务器管理员一起矫正配置进行。
3. 恶 * 攻击:一些网站攻击会引入导致不良标准化的代码。例如,恶性代码可能导致网站返回HTTP 301 重定向 或在HTML 或HTTP header中插入一个跨域rel="canonical" 链接元素,这通常会指向一个托管恶性内容的外部URL。该情况下,我们的算法可能选择恶性或垃圾URL而非默认网站上的URL。
碰到这种情况,请按照我们的网站清理指南进行操作并在清理完成后递交重新审核请求。如果想要识别cloaked攻击,您可以使用网站管理工具中的Googlebot 抓取功能,这样您看到的网页内容便会和在Googlebot上看到的一样。
极少情况下,我们的算法会未经您的允许,就选择那些包含您网站内容的外部网站的URL。如果您认为另一网站复制了您网站上的内容,违反了版权法,请联系网站托管主机,填写数字千年版权法案政策申请删除那些侵权网页。
总之,如果您在如何认定错误原因或修复办法方面需要帮助,您可以浏览我们关于此主题的帮助中心的文章并在我们的网站管理员帮助论坛上提问。
猜你喜欢
- 有很多发布商不能确定自己的网页投放哪一种广告格式和颜色效果最好。也有些发布商认为自己目前投放的广告格式就是最好的,而事实是不是真的是这样呢?
- 软件环境:redhat6.2 Qmail1.3硬件环境:HP Netserver E60 128M内存 单网卡1.什么是mail relay
- 个人网站,通常意义上说是以个人的名义,单个人或几个人小作坊做的网站,也从另外的诠释上泛指草根网站。个人网站不缺创意,不缺流量,不缺技术,不缺
- Google Adwords [ ¥200.00 /天 ] 2,307 3,040,019 0.07% ¥0
- 内容摘要:Google AdSesne一直在努力寻找、测试新的广告方式,就像上次Simon发现AFC广告组中有连结组的新Googl
- 一在google和baidu查询您网站的主题,看看排名第一页的网站的反向链接。查询一个网站的反向链接查询方式:link:网站网址。然后联系这
- 07年的时候在搜索引擎研究领域出现一张Google和百度的点击热图(如下),图的出处未知,但是从图中可以看出google和百度用户行为的显著
- 之前我们就报道过Chrome 即将迎来5.0 正式版,而且还将带来首个Mac 和Linux 平台的正式版本,今天这一切终于实现了,Chrom
- 1. FTP协议概述FTP是文件传输协议(File Transfer Protocol )的简称。FTP是TCP/IP的一种具体应用,它工作
- 央视曝光百度竞价排名内幕由于竞价排名让花钱的企业出现在被搜索结果的前列,因此,一些不愿为此花钱的企业只能出现在搜索结果的末尾。来源:央视网1
- QICMS商家联盟网站系统是QICMS官方推出的专门针对商家/店铺联盟、城市打折消费类网站建设而提供的专业网站系统,采用.NET 2.0 +
- 2009年9月8日,专业的博客软件提供商北京傲博致远软件隆重推出Oblog.NET2.0版。至此,饱含数万OBLOG站长热切期盼和支持的.N
- 在Internet上,E-mail是用户之间交往沟通的最佳方式。通过电子邮件,可以为Linux系统开拓新的空间,增强与外界的联系。已经证明,
- 《商业大亨》的“赢在大亨”挑战赛开启以来,精彩刺激的挑战体验、至高无上的荣誉勋章,以及超级丰厚的奖品
- 一、测试环境与网络结构本文所使用的测试环境是Redhat Linux 7.2、Apache 1.3.24,公司域名假设是company.co
- 为了实现Linux环境下的FTP服务器配置,绝大多数的Linux发行套装中都选用的是Washington University FTP(Wu
- 昨天登陆adsense后台西联已经签发,在后台看到这样东西:在点收入对帐单 就可以看到这些东西了在这个上面可以看到你的名字拼音的,我拿笔抄下
- 自己也是菜鸟一个(文中若有错误之处欢迎各位大虾们指出)但还是希望能将我自己的一些作站经历写出来,为广大菜鸟朋友们做一些参考。试验目的:在只有
- 依然是挂马问题,已经是第三次变种啦!可恶!今天听报道说黑客入侵红十字会官网,修改了募捐帐号 ,这种人简直禽兽不如—— * 。希望每个中国人
- 【故障原因】局域网内有人使用ARP欺骗的木马程序(比如:传奇 * 的软件,某些传奇 * 中也被恶意加载了此程序)。【故障原理】要了解故障原理,我