关于robots.txt无法禁止收录的小看法
发布时间:2011-10-14 20:34:22
在网站seo优化的过程中常常需要通过一个名为robots.txt的文件与搜索引擎蜘蛛对话。通常来讲,搜索引擎蜘蛛爬行到某一个网站就会首先读取该文件,并按照文件中的规则执行接下来的行为。
当一个网站中有一些网站不需要被搜索引擎收录时,往往就会通过robots.txt来限制搜索引擎蜘蛛对这个网页的抓取。比如说,当网站出现?replytocom重复收录,或者某些不需要被收录并分享权重的页面等等。从这个方面来讲,robots.txt约束了搜索引擎的行为。
而实际情况是,网站在robots.txt禁止了蜘蛛对某个类型url网页的收录,但在用搜索引擎高级命令site查询收录情况是发现,搜索引擎并没有遵从robots.txt中的规则。大部分时候,搜索引擎确实能按照网站robots.txt中所写的规则对这些网页不进行收录。但搜索引擎视robots.txt中的规则为无物的情况也是确实存在的。
当然,也有可能存在网站robots.txt写法出现错误的可能,但此文建立在正确撰写robots.txt的前提下。
有一个很官方的说法是这样的:网站robots.txt中对某个网页屏蔽了蜘蛛的收录,但搜索引擎还是会对该网页进行抓取,只不过在相关搜索结果中不会展现这些网页内容。
这句话咋一看有些令人费解,但据笔者的看法,还是很有可能的。
首先,搜索引擎的发展根本是向搜索用户展现用户所需要的、健康的、优质的内容。在收录并返回相关搜索结果之前,搜索引擎必然要对这些网站进行相应的了解,然后在权衡是否将其收录并给予如何的排名。
打个比方,如果要做一个非法的网站,先假设网站内容没有被监管部门查到,也不考虑以下这个方法的好坏与否。当然,如果直接采用相关的关键词做网站seo优化,在得到更高曝光率的同时也大大增加了被查封的可能性。更何况这些非法内容也不一定不会被搜索引擎屏蔽。
这时,通过大量的健康的内容做网站的seo排名。通过健康的关键词使网站获得大量流量,然后在这些健康的内容上带上非法信息的链接入口。当然,这样的链接必然要使用网站的robots.txt对搜索引擎蜘蛛进行屏蔽,同时将所有的非法内容页面也同样的禁止收录。
难道这样就能既通过搜索引擎谋利,又避开了搜索引擎的监管吗?其实不然,上文中说到搜索引擎为了良好的用户体验,必然会对已收录或者将要收录的网站进行全面的了解(不管现在搜索引擎做的是否完善)。
那好,既然搜索引擎要了解网站,又怎么能对robots.txt中屏蔽的页面视而不见呢?明着对着搜索引擎装纯洁,背地里暗暗的搞一些非法勾当。我想,这种情况搜索引擎不会不考虑到。所以了,即使你的网站robots.txt中明确的对某些页面禁止蜘蛛的爬行,但搜索引擎总还是要“检查”一下的。不然又怎么全面的了解网站的优劣呢?
好吧,要查看网页的情况当然先要抓取进入搜索引擎的服务器,再进行判断了。既然搜索引擎对网站robots.txt中屏蔽的页面还是进行了抓取并查看,那么,又要如何体现robots.txt的作用呢?
那只有将这些页面进行隐藏,至少不能在普通搜索结果中展现出来。不然,网站robots.txt岂不只成摆设?
所以,当发现搜索引擎依旧对网站robots.txt屏蔽的网页进行收录时不用过于紧张。搜索引擎只是想要充分的了解网站情况。但必须要确保robots.txt规则正确书写。一般情况,搜索引擎都会对禁止抓取的网页进行删除,或者说是“隐藏”的。
由于网站robots.txt屏蔽网页依旧收录的情况存在着较大的不确定因素,所以很遗憾笔者无法进行实际的实验对该情况进行检测。同时笔者自认为只是刚刚开始学习seo的菜鸟,所以笔者的观点并不一定正确无误。笔者衷心希望各位seo优化前辈、达人能给予指点和交流,谢谢。
本文链接地址: http://www.yushenblog.com/talk/509.html,转载请务必注明出处,谢谢。
猜你喜欢
- 作为破坏力较强的黑客攻击手段,DDoS是一种形式比较特殊的拒绝服务攻击。作为一种分布、协作的大规模攻击方式,它往往把受害目标锁定在大型Int
- CentOS Linux系统搭建Android开发环境详细介绍 很多
- VMware EXSI 为虚拟机centos安装VMware Tools1.首先查看虚拟机是否安装VMware Tools2.打开虚拟机控制
- 随着互联网行业的发展,越来越多的企业认识到网站的重要性,同时网站作为一个企业对外展示的窗口也开始受到用户的注意,想找什么东西上网一搜索,几秒
- 拥有7亿多用户和300多个互联网产品的马化腾如何在多元化的急速扩张中掌控航向,超越“跟风者”的形象,并构建一个世界上前所未有庞大的Web2.
- 随着Internet的发展,很多机构都将自己内部的网络连接到Internet上,因而网络安全问题越来越重要。一、现有防火墙技术及其局限性为了
- 最近有和朋友谈论百度快照不更新,首页Site不是第一的问题,下面简单的说一下自己怎样把自己的站快照和site不正常到正常的经历,绝非抄袭别人
- 付款流程中有两个收入点需要注意,一个是 10 美元,一个是 100 美元。一.10美元,确认帐户信息当你的收入达到10美元时,系统会自动向你
- 大家好,我也是个站长。普通的站长,今天跟大家分享下做站心得。标题就是流量。首先,谈到网站,大家自然而然就会联想到流量,没错,一个网站,流量是
- Godaddy主机用户在购买、建立、管理托管帐户时,创建了多个帐户来登陆与其托管网站有关的不同界面。每个帐户都是由一个用户名及密码来保护的。
- 博客作为博主与博友的交流平台,经常会有博友发表评论及回复,但是博客并不像即时聊天工具那样具有时时交流的功能,不过我们可以通过评论通知插件发送
- 大家先来看看问题描述:新建虚拟机的列表中没有64位系统选项,如何解决?操作系统:Windows 7 64位;虚拟机:Oracle VM Vi
- 人总是愿意用挑剔的眼光来看到新生事物,在对待刀片服务器的问题就是如此,有些人对于一些反复介绍的技术视而不见,仍然强加给刀片服务器一些莫须有的
- Windows系统其实和Linux系统有相似的地方,Windows系统文件、目录的属性有只读、隐藏,而Linux也一样。Linux中,每一个
- 精博的域名已经由 essentialblog.cn 改为 jingpin.org,下面介绍我是如何更换域名的。一、cPanel 上的操作:在
- Volume数据卷是Docker的一个重要概念。数据卷是可供一个或多个容器使用的特殊目录,可以为容器应用存储提供有价值的特性:持久化数据与容
- 要做竞争对手分析,首先就是要确定竞争对手,已经存在的和潜在的竞争对手也许都盯着你。互联网上的竞争点很多体现在网站上,这里为大家整理了竞争对手
- WordPress有丰富的插件、主题,成功广大博主建博客利器,WordPress博客是由MySQL提供支持的,在博客的写作过程中,有时不得不
- 现在的网站越做越大了,存储的东西越来越多,如何解决这些文件存储也成了新的难题。如果把这些文件都完全采用大硬盘存储来解决,并不是一个好主意,因
- 周六生产服务器出现redis服务器不可用状态,错误信息为:状态不可用,等待后台检查程序恢复方可使用。Unexpected end of st