网站运营
位置:首页>> 网站运营>> 谷歌网站管理员详解:如何使用robots.txt

谷歌网站管理员详解:如何使用robots.txt

作者:马超 石仁赫 来源:谷歌网站管理员 发布时间:2009-01-23 14:24:00 

标签:


如何放置Robots.txt文件

robots.txt自身是一个文本文件。它必须位于域名的根目录中并 被命名为“robots.txt”。位于子目录中的 robots.txt 文件无效,因为漫游器只在域名的根目录中查找此文件。例如,http://www.example.com/robots.txt 是有效位置,http://www.example.com/mysite/robots.txt 则不是。

这里举一个robots.txt的例子:

User-agent: *Disallow: /cgi-bin/Disallow: /tmp/Disallow: /~name/

使用 robots.txt 文件拦截或删除整个网站

要从搜索引擎中删除您的网站,并防止所有漫游器在以后抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:

User-agent: *Disallow: /

要只从 Google 中删除您的网站,并只是防止 Googlebot 将来抓取您的网站,请将以下 robots.txt 文件放入您服务器的根目录:

User-agent: GooglebotDisallow: /

每个端口都应有自己的 robots.txt 文件。尤其是您通过 http 和 https 托管内容的时候,这些协议都需要有各自的 robots.txt 文件。例如,要让 Googlebot 只为所有的 http 网页而不为 https 网页编制索引,应使用下面的 robots.txt 文件。

对于 http 协议 (http://yourserver.com/robots.txt):

User-agent: *Allow: /

对于 https 协议 (https://yourserver.com/robots.txt):

User-agent: *Disallow: /

允许所有的漫游器访问您的网页

User-agent: *Disallow:

(另一种方法: 建立一个空的 “/robots.txt” 文件, 或者不使用robot.txt。)

使用 robots.txt 文件拦截或删除网页

您可以使用 robots.txt 文件来阻止 Googlebot 抓取您网站上的网页。 例如,如果您正在手动创建 robots.txt 文件以阻止 Googlebot 抓取某一特定目录下(例如,private)的所有网页,可使用以下 robots.txt 条目:

User-agent: GooglebotDisallow: /private

要阻止 Googlebot 抓取特定文件类型(例如,.gif)的所有文件,可使用以下 robots.txt 条目:

User-agent: GooglebotDisallow: /*.gif$

要阻止 Googlebot 抓取所有包含 ? 的网址(具体地说,这种网址以您的域名开头,后接任意字符串,然后是问号,而后又是任意字符串),可使用以下条目:

User-agent: GooglebotDisallow: /*?

尽管我们不抓取被 robots.txt 拦截的网页内容或为其编制索引,但如果我们在网络上的其他网页中发现这些内容,我们仍然会抓取其网址并编制索引。因此,网页网址及其他公开的信息,例如指 向该网站的链接中的定位文字,有可能会出现在 Google 搜索结果中。不过,您网页上的内容不会被抓取、编制索引和显示。

作为网站管理员工具的一部分,Google提供了robots.txt分析工具。它可以按照 Googlebot 读取 robots.txt 文件的相同方式读取该文件,并且可为 Google user-agents(如 Googlebot)提供结果。我们强烈建议您使用它。 在创建一个robots.txt文件之前,有必要考虑一下哪些内容可以被用户搜得到,而哪些则不应该被搜得到。 这样的话,通过合理地使用robots.txt, 搜索引擎在把用户带到您网站的同时,又能保证隐私信息不被收录。

0
投稿

猜你喜欢

  • 建站程序是站长运营网站的根本,如何结合整合各个不同系统的程序、数据表、架构,提供统一的网站会员系统,一直是困扰很多站长的问题,而使用UCen
  • 有Godaddy主机用户问可以给Godaddy添加域名吗?那当然了,从某一个托管帐户托管多个域名是有可能的。Deluxe及Premium计划
  • 下面的每一条戒律都将有效地影响代码的性能和可伸缩性。换句话说,尽可能不要照着戒律去做!下面,我将解释如何破坏他们以便提高性能和可伸缩性。1、
  • 1月6日消息,据国外媒体报道,微软将在今年发布新版本的Office套装软件,零售价格为99美元-499美元,业内人士猜测发布日期可能为6月。
  • 什么是红海战略和蓝海战略红海战略主要是在已有已知的市场空间竞争,在这里你相对于你对手是成本比他低,或是比他更加可以达到差异化的战略两者取其一
  • 有的服务器可以用sql溢出,可惜就是找不到进一步的入侵方法,因而一直也没有拿下来。今天在校盟看到一篇文章,说是在cmd下也可以中入sql账号
  • 网络才开始在中国出现的时候,因为带宽和网络技术的限制。当初的互联网相当于文字时代,上网无非就是看看新闻,发发邮件,聊聊天。随着互联网技术的发
  • 上篇文章介绍了怎样添加子域名,那今天我们来介绍如果想移除Godaddy子域名该怎样操作呢?需要注意的是:这以过程在HostingConfig
  • 走过的路,回忆起来是那么曲折,把自己的一些心得体会分享给程序员兄弟姐妹们,虽然时代在变化,但是很可能你也会走我已经做过的10年的路程,有些心
  • 1、把系统安装光盘插入,重启机器,启动时迅速按下Del键,进入CMOS,把启动顺序改为光盘先启动,这样就启动了Linux安装程序,按F5,按
  • 第一步:准备好精美、快速空间、网站程序并发布少而精的网站内容要点:不求程序功能强大,但求程序速度快不要用采集功能,发布大量垃圾信息 ,就要手
  • 我有一个感觉,不知道各位看观有没这种感觉。DedeCms在没组团队以前,我们BLT老大重点发展的应该是免费用户,也让V4.X辉煌一时。而在初
  • 服务器稳定性是最重要的,如果在稳定性方面不能够保证业务运行的需要,在高的性能也是无用的。正规的服务器厂商都会对产品惊醒不同温度和湿度下的运行
  • 说到百度贴吧推广中国亚龙是最熟悉不过了,07年有两个月专职做这个,虽然现在没有以前在百度帖吧推广那么疯狂,但到现在也从未间断过。现在就和大家
  • 3月24日凌晨消息,阿里巴巴网络有限公司(1688.HK)CEO卫哲近日承认,在数月之内,阿里巴巴将有一个战略性的项目面世。据悉,该项目或与
  • Kesioncms V6版本系列产品开发的网站已支持多种的运行方式如全静态、全动态、部分静态、伪静态(带问号,无需组件)、rewrite组件
  • 什么是SNS?SNS,全称Social Networking Services,即社会性网络服务,专指旨在帮助人们建立社会性网络的互联网应用
  • 10月22日消息,金山软件今天宣布,旗下3D武侠网游《剑侠情缘网络版叁》(简称《剑网3》)将于今日掀起公测后最大规模的内容更新,届时50级到
  • 10月16日消息,研究机构ComScore指出,Google与微软上个月美国网络搜索市占率连袂上升,只有雅虎不增反减。数据显示,Google
  • 11月11日,巨人内部人士披露,巨人网络《绿色征途》主策划纪学锋在公司内部对该游戏在业内引起的质疑风波做出回应,称对《绿色征途》的质疑可能只
手机版 网站运营 asp之家 www.aspxhome.com