网站运营
位置:首页>> 网站运营>> 详谈robots.txt的好处与坏处

详谈robots.txt的好处与坏处

  发布时间:2008-07-22 12:52:00 

标签:Robots.txt,搜索引擎,蜘蛛

Robots.txt 带来的好处:

1. 几乎所有的搜索引擎 Spider 都遵循 robots.txt 给出的爬行规则,协议规定搜索引擎 Spider 进

入某个网站的入口即是该网站的 robots.txt,当然,前提是该网站存在此文件。对于没有配置robots.txt 的网站,Spider 将会被重定向至 404 错误页面,相关研究表明,如果网站采用了自定义的 404 错误页面,那么 Spider 将会把其视作 robots.txt虽然其并非一个纯粹的文本文件这将给 Spider 索引网站带来很大的困扰,影响搜索引擎对网站页面的收录。

2. robots.txt 可以制止不必要的搜索引擎占用服务器的宝贵带宽,如 email retrievers,这类搜索

引擎对大多数网站是没有意义的;再如 image strippers,对于大多数非图形类网站来说其也没有太大意义,但却耗用大量带宽。

3. robots.txt 可以制止搜索引擎对非公开页面的爬行与索引,如网站的后台程序、管理程序,事实上,对于某些在运行中产生临时页面的网站来说,如果未配置 robots.txt,搜索引擎甚至会索引那些临时文件。

4. 对于内容丰富、存在很多页面的网站来说,配置 robots.txt 的意义更为重大,因为很多时候

其会遭遇到搜索引擎 Spider 给予网站的巨大压力:洪水般的 Spider 访问,如果不加控制,甚至会影响网站的正常访问。

5. 同样地,如果网站内存在重复内容,使用 robots.txt 限制部分页面不被搜索引擎索引和收录,可以避免网站受到搜索引擎关于 duplicate content 的惩罚,保证网站的排名不受影响。

robots.txt 带来的风险及解决:

1. 凡事有利必有弊,robots.txt 同时也带来了一定的风险:其也给攻击者指明了网站的目录结构和私密数据所在的位置。虽然在 Web 服务器的安全措施配置得当的前提下这不是一个严重的问题,但毕竟降低了那些不怀好意者的攻击难度。

比如说,如果你有个网站如www.ppzxdy.cn中的私密数据通过dz目录下的index.html 访问,那么,在 robots.txt 的设置可能如下:

User-agent: *

Disallow: /dz/

这样,攻击者只需看一下 robots.txt 即可知你要隐藏的内容在哪里,在浏览器中输入

http://www.ppzxdy.cn/dz 便可访问我们不欲公开的内容。对这种情况,一般采取如下的办法:

设置访问权限,对/private/中的内容实施密码保护,这样,攻击者便无从进入。

另一种办法是将缺省的目录主文件 http://www.pipiflash.com/index.html 更名为其他,比如说 abc-protect.html,同时,制作一个新的index.html 文件,内容大致为%26quot;你没有权限访问此页%26quot;之类,这样,攻击者因不知实际的文件名而无法访问私密内容。

2. 如果设置不对,将导致搜索引擎将索引的数据全部删除。

User-agent: *

Disallow: /

上述代码将禁止所有的搜索引擎索引数据。

0
投稿

猜你喜欢

  • 2)连接命令设置:前面介绍的是从根本上彻底解决windows 2000 server和windows 2003非人性化问题,将我们的系统设置
  • IIS 7.0的十大改进: 1. 更简便的命令行配置功能 2. 更强的兼容性 3. 抛弃MetaBase 4. 集中管理 5. 委任配置 6
  • 设置了用 mutt + msmtp + getmail 的组合管理邮件,将配置文件贴在这里作为备忘。.muttrcset locale =
  • 题目有些茫然,带有选择,思考,纳闷!可是即将的事实飘哥会告诉你你需要这么做!Google AdSense最近调整,造成了点击范围局限到标题连
  • 网络赚钱一定要找准自己的方向,现在在网上赚钱的人越来越多。谈起网赚大家也不陌生了,而却越来越多的人都能接受。网络赚钱大家应该还是比较认同做网
  • 这几条都是在管理中心学来的,可能有些朋友没有注意。1、杜绝内容复制,就是说多地址指向同一内容,收录太多重复内容,浪费存储资源,所以大多搜索引
  • 11月26日消息,据国外媒体报道,微软公司和eBay今天宣布,双方将进行合作,通过新的Internet Explorer 8 (IE 8)
  • DDOS攻击的重心是堵塞服务器,给域名解析访问造成困难,被攻击后我们可以采用以下方法:第一步,用一切方法告诉你的网友,通过IP来打开主页。这
  • “世界上最愚蠢的人,就是自以为聪明的人;同样,最想自己发财的人,往往也发不了财。”与以往特立独行的马云一样,如今马云依旧是妙语连珠。在人们频
  • 理论:分析流量统计报告,挑选核心关键词。实践:“阿江守候”网站已安装“51.la流量分析系统”,想知道网站的哪些关键词比较热门,并做出具有针
  • 1、保证VMware Network Adapter VMnet1是启用状态2、将可以连接外网的连接共享属性设置成如下图所示3、将VMwar
  • 本安装及设置教程适用于使用Windows2003为操作系统的服务器,目的是让服务器支持常见网络编程语言包括ASP、PHP、.Net1.1、.
  • 现在网赚其实已经很流行了,但是多数学生只了解其表面,根本不懂其真实内容,记得原来我高中的时候看到有个网站上出现网赚这个词,是发展下线那种的,
  • 80后的站长有太多的好像,总希望自己网站能在一年或半年就发展大,甚至想一个月就把网站做大,这种急功近利,好高骛远的心态,试问怎么能做出一个好
  • 网站重建的目的是为了获得更好的表现。因此,第一项要做的事情就是用Seo来思考新网站以什么新形式出现,新的网站在建设过程中,要考虑保持原来网站
  • 1.Linux下生成密钥ssh-keygen的命令手册,通过”man ssh-keygen“命令:通过命令”ssh-keygen -t rs
  • DHCP概述1 采用DHCP的必要性在TCP/IP网络上,每台工作站要能存取网络上的资源之前,都必须进行基本的网络配置,一些主要参数诸如IP
  • 作为一个合格的站长,知道搜索引擎的更新时间和频率是应该的.也是应该具备的一种基本素质,百度作为搜索老大,可以说是万千站长都靠着他,尽管站长们
  • 昨日收到Godaddy发给我的一封域名转让成功的信,现将详细转入过程分享给大家。域名转移前要满足一下条件:1.要转移的域名必须满足注册满60
  • 电子商务的兴起,使的很多中小企业都拥有了自己的服务器。对内用来建立局域网,提升办公效率;对外建立网站,更为广泛地宣传企业产品和形象,争取更多
手机版 网站运营 asp之家 www.aspxhome.com