谷歌网站管理员详解:如何使用robots.txt
作者:马超 石仁赫 来源:谷歌网站管理员 发布时间:2009-01-23 14:24:00
如何放置Robots.txt文件
robots.txt自身是一个文本文件。它必须位于域名的根目录中并 被命名为“robots.txt”。位于子目录中的 robots.txt 文件无效,因为漫游器只在域名的根目录中查找此文件。例如,http://www.example.com/robots.txt 是有效位置,http://www.example.com/mysite/robots.txt 则不是。
这里举一个robots.txt的例子:
User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~name/
使用 robots.txt 文件拦截或删除整个网站
要从搜索引擎中删除您的网站,并防止所有漫游器在以后抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:
User-agent: *Disallow: /
要只从 Google 中删除您的网站,并只是防止 Googlebot 将来抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:
User-agent: GooglebotDisallow: /
每个端口都应有自己的 robots.txt 文件。尤其是您通过 http 和 https 托管内容的时候,这些协议都需要有各自的 robots.txt 文件。例如,要让 Googlebot 只为所有的 http 网页而不为 https 网页编制索引,应使用下面的 robots.txt 文件。
对于 http 协议 (http://yourserver.com/robots.txt):
User-agent: *Allow: /
对于 https 协议 (https://yourserver.com/robots.txt):
User-agent: *Disallow: /
允许所有的漫游器访问您的网页
User-agent: *Disallow:
(另一种方法: 建立一个空的 “/robots.txt” 文件, 或者不使用robot.txt。)
使用 robots.txt 文件拦截或删除网页
您可以使用 robots.txt 文件来阻止 Googlebot 抓取您网站上的网页。 例如,如果您正在手动创建 robots.txt 文件以阻止 Googlebot 抓取某一特定目录下(例如,private)的所有网页,可使用以下 robots.txt 条目:
User-agent: GooglebotDisallow: /private
要阻止 Googlebot 抓取特定文件类型(例如,.gif)的所有文件,可使用以下 robots.txt 条目:
User-agent: GooglebotDisallow: /*.gif$
要阻止 Googlebot 抓取所有包含 ? 的网址(具体地说,这种网址以您的域名开头,后接任意字符串,然后是问号,而后又是任意字符串),可使用以下条目:
User-agent: GooglebotDisallow: /*?
尽管我们不抓取被 robots.txt 拦截的网页内容或为其编制索引,但如果我们在网络上的其他网页中发现这些内容,我们仍然会抓取其网址并编制索引。因此,网页网址及其他公开的信息,例如指 向该网站的链接中的定位文字,有可能会出现在 Google 搜索结果中。不过,您网页上的内容不会被抓取、编制索引和显示。
作为网站管理员工具的一部分,Google提供了robots.txt分析工具。它可以按照 Googlebot 读取 robots.txt 文件的相同方式读取该文件,并且可为 Google user-agents(如 Googlebot)提供结果。我们强烈建议您使用它。 在创建一个robots.txt文件之前,有必要考虑一下哪些内容可以被用户搜得到,而哪些则不应该被搜得到。 这样的话,通过合理地使用robots.txt, 搜索引擎在把用户带到您网站的同时,又能保证隐私信息不被收录。


猜你喜欢
- WordPress3.3已经宣布功能添加冻结,预计在未来几周将进入Beta测试阶段,WordPress3.3可能将在12月份发布。WordP
- 北京时间23:00,Windows7全球发布会在纽约举行,cnBeta第一时间滚动更新报道发布实况,以下为cnBeta官方Twitter直播
- 第一步:用游览器打开以下网址(如果你的网域名是别的就把abc.com换成你的域名)http://www.alexa.com/data/det
- 由站长之家、易特网络、落伍者联合主办的2011年西湖论站“汇聚站长力量,共享创业新生机”的交流聚会于5月14日举行,本次交流会邀请到网盛科技
- 北京时间12月3日消息,据国外媒体报道,正在与美国最大的分类信息网站Craigslist对簿公堂的eBay周三表示,为从分类列表中获取更多营
- 这个世界无奇不有,就连做网页都要拼个高低长短,当你上网百般无聊之际,不妨看一看网络中的世界之最吧!1.最宽网页你可曾想过,网站就是一道空白的
- 1、打开httpd.conf,查找Listen:80,在下面一行加入Listen:8080;2、查找#Include conf/extra/
- 10月14日国际报道 若你的笔记本或移动设备内建有加速感应器,新的FireFox 3.6版将可侦测笔记本的方向,并将该信息传给浏览器的应用程
- 企业信息化技术的应用,以不可逆转。随着文件服务器、ERP管理软件等等在企业中生根发芽,应用服务器也逐渐在企业中普及起来。以前在企业中有一台应
- 这几天研究了一下将spring boot应用打入到docker中运行,先前有一个maven插件,可以直接在src/main中建一个docke
- 一、Linux组基本介绍在Linux中每个用户必须属于一个组,不能独立于组外。在Linux中每个文件有所有者,所在组,其他组的概念1)所有者
- 概述Microsoft 的运营技术组(OTG)最近部署了 Microsoft Exchange Server 2003 - 该公司行业领先的
- 今天为大家介绍如何才能启用Windows10下的Linux子系统,废话不多说,直接看步骤:####启用开发者模式打开设置点击更新和安全点击开
- 上个月,google发布了1.1版本的官方seo指南(中文版)。这个22页的PDF文档中包含了适用于google的最
- 近日,国际知名的信息安全厂商卡巴斯基在沪举行了“自信自强,勇往直前”新闻发布会,揭开了卡巴斯基企业级新品的神秘面纱。据悉,新推出的卡巴斯基开
- 今天在浏览一个博客时,突然看到一句话“成功就是不断重复地做简单的事”,不禁让我联想起咱们做站何尝不是这样:记得刚开始做站的时候,总是不停地到
- 1、前言apache+resin来做想来大家都比较熟悉了,一般的配置都是很熟悉的了,我查看了一些论坛上的文章,这方便的文章比较多。在这里,我
- 这篇文章介绍了一下如何在Vmare下添加或扩展磁盘并使之有效。场景创建Linux时分配磁盘空间随着使用的增加,使用率逐渐升高,此时需要在添加
- 微软搜索很少给SEO和站长提建议。当然也许是人家提了,咱们都不太关注Live搜索,没看到而已。前几天微软搜索官方博客发了一篇关于交换链接的帖
- 链接广泛度(链接到一个网站的来源链接数目)链接广泛度是一个很重要的因素,为实现在搜索引擎中的最高的排名位置,获得更多的有质量的链接,排名越高