关于robots.txt无法禁止收录的小看法
发布时间:2011-10-14 20:34:22
在网站seo优化的过程中常常需要通过一个名为robots.txt的文件与搜索引擎蜘蛛对话。通常来讲,搜索引擎蜘蛛爬行到某一个网站就会首先读取该文件,并按照文件中的规则执行接下来的行为。
当一个网站中有一些网站不需要被搜索引擎收录时,往往就会通过robots.txt来限制搜索引擎蜘蛛对这个网页的抓取。比如说,当网站出现?replytocom重复收录,或者某些不需要被收录并分享权重的页面等等。从这个方面来讲,robots.txt约束了搜索引擎的行为。
而实际情况是,网站在robots.txt禁止了蜘蛛对某个类型url网页的收录,但在用搜索引擎高级命令site查询收录情况是发现,搜索引擎并没有遵从robots.txt中的规则。大部分时候,搜索引擎确实能按照网站robots.txt中所写的规则对这些网页不进行收录。但搜索引擎视robots.txt中的规则为无物的情况也是确实存在的。
当然,也有可能存在网站robots.txt写法出现错误的可能,但此文建立在正确撰写robots.txt的前提下。
有一个很官方的说法是这样的:网站robots.txt中对某个网页屏蔽了蜘蛛的收录,但搜索引擎还是会对该网页进行抓取,只不过在相关搜索结果中不会展现这些网页内容。
这句话咋一看有些令人费解,但据笔者的看法,还是很有可能的。
首先,搜索引擎的发展根本是向搜索用户展现用户所需要的、健康的、优质的内容。在收录并返回相关搜索结果之前,搜索引擎必然要对这些网站进行相应的了解,然后在权衡是否将其收录并给予如何的排名。
打个比方,如果要做一个非法的网站,先假设网站内容没有被监管部门查到,也不考虑以下这个方法的好坏与否。当然,如果直接采用相关的关键词做网站seo优化,在得到更高曝光率的同时也大大增加了被查封的可能性。更何况这些非法内容也不一定不会被搜索引擎屏蔽。
这时,通过大量的健康的内容做网站的seo排名。通过健康的关键词使网站获得大量流量,然后在这些健康的内容上带上非法信息的链接入口。当然,这样的链接必然要使用网站的robots.txt对搜索引擎蜘蛛进行屏蔽,同时将所有的非法内容页面也同样的禁止收录。
难道这样就能既通过搜索引擎谋利,又避开了搜索引擎的监管吗?其实不然,上文中说到搜索引擎为了良好的用户体验,必然会对已收录或者将要收录的网站进行全面的了解(不管现在搜索引擎做的是否完善)。
那好,既然搜索引擎要了解网站,又怎么能对robots.txt中屏蔽的页面视而不见呢?明着对着搜索引擎装纯洁,背地里暗暗的搞一些非法勾当。我想,这种情况搜索引擎不会不考虑到。所以了,即使你的网站robots.txt中明确的对某些页面禁止蜘蛛的爬行,但搜索引擎总还是要“检查”一下的。不然又怎么全面的了解网站的优劣呢?
好吧,要查看网页的情况当然先要抓取进入搜索引擎的服务器,再进行判断了。既然搜索引擎对网站robots.txt中屏蔽的页面还是进行了抓取并查看,那么,又要如何体现robots.txt的作用呢?
那只有将这些页面进行隐藏,至少不能在普通搜索结果中展现出来。不然,网站robots.txt岂不只成摆设?
所以,当发现搜索引擎依旧对网站robots.txt屏蔽的网页进行收录时不用过于紧张。搜索引擎只是想要充分的了解网站情况。但必须要确保robots.txt规则正确书写。一般情况,搜索引擎都会对禁止抓取的网页进行删除,或者说是“隐藏”的。
由于网站robots.txt屏蔽网页依旧收录的情况存在着较大的不确定因素,所以很遗憾笔者无法进行实际的实验对该情况进行检测。同时笔者自认为只是刚刚开始学习seo的菜鸟,所以笔者的观点并不一定正确无误。笔者衷心希望各位seo优化前辈、达人能给予指点和交流,谢谢。
本文链接地址: http://www.yushenblog.com/talk/509.html,转载请务必注明出处,谢谢。
猜你喜欢
- 保护企业免遭互联网威胁的最集中的硬件设备解决方案,除了集成最佳的URL过滤、WEB应用报告、实时监控以及内部威胁清除等功能之外,还应该包括多
- 网页抓取优先策略也称为“页面选择问题”(page Selection),通常是尽可能地首先抓取重要性的网页,这样保证在有限的资源内尽可能地照
- 个人如何才能够做一个成功的网站?这是一个值得思考的问题。我的网站,也算不上怎么成功的一个站,我和大家谈这个话题也许有点纸上谈兵。主要讲四点:
- 这里常远分享下用织梦CMS建站前,为更利于SEO,对织梦CMS的修改工作。现在站长都知道SEO对于一个网站重要性,我们规划一个网站,选好网站
- 成都SEO记得有一次在坛子里看牛人的文章说:SEO高手们是不需要Keywords和Description??百思不得其解,困惑得想找个六层的
- 为了解决日益严重的手机安全问题,全球领先的手机安全服务公司网秦发布了手机卫士服务。手机卫士是一组永久免费的手机安全和管理工具族,流氓克星是手
- 今天把以前的windows server 2003给覆盖了,在C盘地下安装了windows server 2008。安装好windows s
- 通常,你可以通过模块设置中的“菜单分配(Menu Assignment)”将模块分配给某些菜单项,以在它们对应的页面里显示。但有时你想将模块
- 现在论坛到处可见,有的论坛很强大,几万几十万甚至几百万IP都有,地域性的(如:某个县的论坛)、实用性的(如炒股论坛)、行业性的(如化工行业)
- 10月28日下午消息,电子商务巨头阿里巴巴今日在杭州宣布,阿里巴巴(中国)教育科技有限公司(以下简称“阿里学院”)正式揭牌成立。新成立的阿里
- SEO全称为Search Engine Optimization ,中文就是搜索引擎优化,起源无从考证,估计从有搜索引擎开始就有seo了吧。
- 这可能是所有新站长都面临的一个问题,对于一个站点来说,做友情链接是非常不错的一种推广网站的手段,只是这个链接到底该怎么做,不少人都是非常盲目
- 你的网站是不是常常被黑,或者一不注意就成了黑客的“肉鸡”?对于Web网站服务器来说,如果不进行安全设置,很容易被黑客“盯上”,随时都有被入侵
- 我用.htaccess做了些什么?1、防图片盗链,减轻流量压力;2、index.php 301转向到域名,有利于PR权重集中;3、其它还不会
- PHPWind v7.3.2综合积分计算错误解决方法:打开:profile.php找到 $usercredit[$ke
- 核心提示:■受访“职业删稿人”自称与新浪、搜狐、网易、腾迅、百度、谷歌等108家门户网站、新闻网站、
- 代理共享上网和控制 * 权限,界面友好,设置简单,功能强大。支持Modem代理/ADSL代理/宽带代理/Cable Modem代理等方式共
- 从使用虚拟空间到使用独立服务器,这对一个站长来说是一件惊天动地的大事,对于一个没有拿自己电脑做过服务器的站长来说,第一次拿到属于自己的服务器
- 10月27日,人人网宣布将通过“人人连接”技术实现与土豆网、互动百科、蚂蜂窝、大众点评网、爱卡汽车网
- 今天我们来介绍Godaddy主机用户怎样使用Hosting Control Center的File Manager从托管帐户删除某个文档?