网站运营
位置:首页>> 网站运营>> 也谈Google搜索引擎对原创内容的识别

也谈Google搜索引擎对原创内容的识别

作者:williamlong 来源:月光博客 发布时间:2008-07-11 14:08:00 

标签:原创,内容,google,收录

Google中文网站管理员博客在《由抄袭造成的重复内容》文章中提到:“鉴别内容的原创来源是Google所擅长的,在大多数情况下原创内容源都能被正确地识别出来,从而不会给发布真正原创内容的网站带来任何负面影响……当有人剽窃了您网站中的内容,并将其展示在其他网站上牟利。Google在不同网站遇到相同内容的时候,会基于许多不同的依据来判断究竟哪个网站才是原创,而这样的判断通常是准确的。”  

根据我的观察,Google识别原创内容源的能力有时候比较准,但有时候不太准,不准的情况主要是在中文网站上,因为Google无法用简单的链接权重来平衡门户网站和个人博客之间的孰是孰非。

目前的中国互联网仍然是主流门户网站的天下,个人博客的生存环境异常艰辛,个人辛辛苦苦的写作往往得不到回报,产生的内容却因为种种原因无法给个人带来应该得到的回报,所有的流量都逐步流向主流门户网站。通常情况下,Google给予门户网站的权值和网站权威度都非常高,当一篇完全相同的文章同时出现在门户网站和个人博客上的时候,Google往往认为原创者是门户网站,除非个人博客的权值非常大。

门户网站为了内容的大量更新而雇佣了不少“网站编辑”,“网站编辑”通过人肉筛选的方法从个人博客上挑选出优秀的文章,并将这些文章复制到门户网站,复制内容的同时通常会删除原始文章的作者和文章中的链接地址,同时小幅修改文章的标题,经过这一番“处理”,Google通常很难判断出到底哪个文章是原创,当一个原创个人博客的文章被大量门户网站复制之后,Google搜索引擎可能会惩罚这个原创博客,不再索引上面的文章。

这里我举一个例子,我在今年三月份曾经写了一篇文章《十个常用网络密码的安全保护措施》,然而相当长的一段时间里,我在Google中搜索这篇文章的标题时,却看不到来自我的博客的一点踪影,我看到的是什么呢?这篇文章被21CN中关村在线新浪网硅谷动力计算机世界瑞星科技等等无数大型门户或专业网站非法转载,最具讽刺意味的是,国家违法和不良信息举报中心这样的国家政府机关的网站竟然也非法进行了转载,通常情况下政府网站在搜索引擎中的权威度是非常高的。

结果是,我的原始文章被搜索引擎惩罚了,至今在百度上找不到我的文章地址了,而Google前几天才重新索引了我这篇文章,其余时间网站的排名都被上面那些主流门户网站抢走了。

从内容上说,个人博客的内容远远无法和主流门户网站相比,主流门户网站拥有自己的编辑团队和营销团队,具有足够的资源和能力输出更好的内容,而个人博客要写一篇好文章需要酝酿很长时间,每周能写一篇好文章已经算不错了,这就注定了个人博客是竞争不过门户网站的。

当然,个人博客也有自己的对策,就是要求门户网站删除复制的文章,但通常会浪费巨大的时间和精力,当被复制的文章累计到成千上万的时候,完成这种工作量通常是不可能的任务。

因此,Google要想在中文的互联网环境下实现对于原创内容识别的准确性,需要考虑使用专门针对中国特殊国情的特殊算法,否则,中国原创的博客群落将会逐渐被门户网站边缘化,走向自生自灭的可悲下场,最为可悲的是,中国最大的搜索引擎百度对于原创内容的识别几乎是一片空白,这也使得当前中国的互联网的环境显得异常恶劣。

0
投稿

猜你喜欢

  • 随着Windows 7的亮相,给人印象非常深刻之一就是其优秀的触摸屏技术。而大家对Windows 7细节却还不甚了解,据微软方面称目前还不会
  • 优化网站性能的14条规则(更新)尽可能的减少 HTTP 的请求数使用 CDN(Content Delivery Network)添加 Exp
  • blog(部落格)Weblog网络日志(网志);从1993年NCSA和网景的“What’s New”栏目开始(博客网站的雏形),Blog诞生
  • 负载均衡是由多台服务器以对称的方式组成一个服务器集合,每台服务器都具有等价的地位,都可以单独对外提供服务而无须其他服务器的辅助。通过某种负载
  • 在百度C2C产品“百度有啊”即将上线的时候,淘宝网站曾经屏蔽百度搜索爬虫,禁止百度搜索引擎抓取淘宝网站的网页内容,淘宝官方的解释是“杜绝不良
  • 1、如何让asp脚本以system权限运行?修改你asp脚本所对应的虚拟目录,把“应用程序保护”修改
  • 教育娃娃就要从多方面进行,合理引导使用电脑当然是必选方式。如今从网络中真正找到一个绿色健康、又寓教于乐的纯免费工具可真不容易,幸好一直有“花
  • 一、配置nginx支持https协议访问,需要在编译安装nginx的时候添加相应的模块--with-http_ssl_module查看ngi
  • 1、禁用网络管理器# chkconfig NetworkManager off # service NetworkManager stop2
  • 定义网站产品和网站运营某些类型的网站属于产品驱动型,另外一些网站则可能属于运营驱动型。邮箱属于典型的产品驱动型,比如现在越来越多的用户开始使
  • 在我未成熟的程序思考能力下,我首先否定了重写程序这个方法,再次否定了将PHPWind的验证方法引入到最土的方法,最后想出一个折中的办法,将两
  • 11月19日消息,中国领先的社区平台与服务提供商康盛创想(Comsenz)旗下核心产品Discuz!新版正式发布。全新推出的Discuz!
  • 核心提示: 一个网站要建立好良好的形象,必定要“扬长避短”。通过robots.txt来限制蜘蛛的爬行页面,不让蜘蛛爬行质量比较低劣的网页。G
  • docker将jar包构建成镜像并执行1.编写Dockerfile文件????FROM java:latest????ADD Aeureka
  • 当 VPS 出现问题的时候,就需要和 VPS 服务商联系,希望能尽快解决问题。这里涉及到一个如何和 VPS 服务商沟通的问题。其实沟通是一门
  • 网站空间是我们做站必不可少的一部分,在这次网络整改的风暴中,倒下了一批IDC服务商,很多站长因为受不了国内的政策,更受不了运营商“一刀切”的
  • 友情链接在自己的网站上放置对方网站的或网站名称,并设置对方网站的超级链接,使得用户可以从合作网站中发现自己的网站,达到互相推广的目的,它是在
  • Adsense推介不带中国玩了,这从是点石得到的最新消息,不知道真的还是假的,如果是真的很大站长朋友的收录又要少了,做站真是不容易啊。后面只
  • 互联网广告之于互联网的地位,笔者曾写文论述过,这里再不赘述。广告是互联网企业衣食父母的地位是笔者认为不容置疑的。博客这个互联网“新宠”,在为
  • 文件传输协议(FTP:File Transfer Protocol)使得主机间可以共享文件。 FTP 使用 TCP 生成一个虚拟连接用于控制
手机版 网站运营 asp之家 www.aspxhome.com