网站运营
位置:首页>> 网站运营>> 网站数据的采集及实践

网站数据的采集及实践

作者:淡然一笑 来源:站长网 发布时间:2007-10-01 14:36:00 

标签:采集

今天讲一下网站数据的采集及实践。 谁都知道,以前建个站都是辛辛苦苦地一个代码一个代码敲出来的,  那时的站长真是苦工中的苦工,后来就出来的许多的网站模板,  再后来出现了CMS即content manager system(内容管理系统),如动易、DEDE、phmcms等等,这种大大方便了网站的制作和内容的录入。 

 无疑一个网站的内容丰富性和趣味性是吸引用户的地方,所以图片站总是很火,特别是美女图片,如果想做一个站,复制粘贴肯定是不行的  一夜之间拥有几万张图片几万篇文章才是我们的梦想。那么实现的方式就是数据采集。 今天仅说下数据采集的一些基础东西,高手飘过,菜鸟认真的学,权当入门。

首先是内容的选择。

  网上世界千奇百怪,各个站长都千方百计地研究如何吸引眼珠。这做站如同做文章,不可能把所有的东西都收罗进来,要懂得取舍 再好的内容与你的网站主题也要符合,即使垃圾站(即无原创内容大部分是采集他人内容的站)初期阶段可能不予计较,但时间长了,垃圾站的目标仍是把垃圾做成精品,否则就死定了。

如何选择好的内容,我认为要做好以下几个方面:
 
①选择内容要你的站的主题符合的比较好。 

比如做轴承站的可以采集轴承新闻、轴承技术什么的,也可以大一点采集机械制造方面的,但不要太偏离了,就不要选择美女图片这样的内容,虽然这类内容吸引人,但一方面给人造成的感觉不专业,另一方面也容易被百度K。 如果你觉得非采这个不可。可以搞个二级域名的方式专门建个相对独立的站,如pic.xxx.com,和主站相对脱节。 字串7

②采集的内容的格式尽量统一。 
尽量选择些精品网站进行采集,采集内容的风格和格式要尽量统一,否则会显得不专业,显得太散乱,影响客户的访问情绪。

③不要一次性采集太多。在建站初期各个栏目适当采集几百条垫底就行了然后每天都采集一些,否则初期太多的流量对一个新站来说也无太大裨益,而且很危险,容易被百度K站。

④采集内容要选好关键字,做好网站的tag,不要见内容就收,否则真成垃圾了 查关键字在百度中的排位情况,是不是有可能冲击前几位,有一二个关键字就够了,这个是流量的保证,就是网站的SEO的一部分,最近才学的,不太懂哈。

⑤为避免百度K站,选择不同编码的站是个不错的建议,比如可以采集big5的繁体站转化成自己的gbk的,有能力的甚至可以通过机器翻译把英文的变成中文站,这样都是原创性的了,被百度K的可能性就是0。 我有一个客户把百度知识的东西通过翻译引擎直接做了个英文知识站。 招数千变,唯一的目标是有安全的流量。

⑥要采集的源站要有持续更新的能力,尽量不要采死站,呵呵, 一方面能经常采集,另一方面这样的站的信息有时效性,可保证你采集的内容新鲜。

0
投稿

猜你喜欢

  • 1.配置桥接,并抓包验证桥接就是把一台机器上的若干个网络接口连接起来,其结果是,其中一个网卡收到的报文会被复制给其他网卡发送出去。以使得网口
  • 据传,上周四(3 月27日)中国网通集团召开了一次内部电话会议,专门讨论了IDC 业务问题,会上网通集团领导明确了在中国网通宽带部之下成立专
  • 大多数网站在处理它们的平均用户数访问时加载速度是合理的。但是网站遇到流量高峰压力时,性能会迅速恶化。为了了解流量高峰期估计的理论和方法,我先
  • 先说:这是俺一个菜鸟建站到如今想到的,俺的原则是--写自己的帖子,让高手笑去吧,在别人的笑声中我们能得到更多(这好像是几年前看到阿江老大的一
  • 1、购买云服务器注册帐号,在产品页面选择合适的服务器,进入详细页面选择配置,购买。购买完成后进入管理控制台——云虚拟主机、ECS云服务器查看
  • 匿名FTP的设定:匿名FTP若有正确地设定与管理,将是一项很有价值的服务。这份文件的第一节提供一般匿名FTP最起始的设定方式。第二节提出当一
  • 打开dede/inc/inc_batchup.php找到"//删除数据库的内容"前面加//删除缩略图 if($arcRo
  • RHEL4中的vsftpd在编译时已经支持tcp_wrappers,因此可以利用tcp_wrappers实现主机访问控制。实验之前,首先说下
  • Google这个搜索巨人很少暴露其数据中心,但在上周,Google研究员Jeff Dean在Google I/O会议上揭秘了它的部分运行情况
  • 由于刚进了高中,高一的学业还是比较繁忙的,已经近乎几个月没有来Chinaz侃侃了,今天由于我身体的不适,没有去学校上课,于是闲着闲着便来到了
  • 问题一:双核的优势在哪里?主要的应用领域有哪些?彭震:由于双核处理器在性价比、功效和可扩展性方面具有极大的优势,双核处理器可以在不改变基础设
  • 北京时间11月7日上午消息,据国外媒体报道,市场研究公司comScore Media Metrix今天发表报告称,9月份微软网站访问时长高于
  • 在日常开发中,长期是在从事后端服务器开发,也避免不了会经常和时间打交道,例如:玩家的首次登录时间玩家的最后登录时间活动的开启时间和结束时间而
  • 今天需要实现一个功能,wordpress实现一篇较长的文章分页显示,于是乎找了很多资料,找了很久才找到,大部分都是3.0之前的实现方法,所以
  • 4.9 这儿有一个小的perl脚本程序,它将大多数的注释从已生成的配置文件中删除,形成一个简化的文件。4.10 将htdocs目录树的所有权
  • 谷歌于北京时间5月20日晚上10:30点在旧金山Moscone会展中心举办Google I/O 2010大会第二天的会议,Google正式发
  • 当一家企业实施CRM的时候,CRM的专用词汇的发展对开发商业模式和沟通变得至关重要。理解CRM术语对开发新商业模式和促使向以客户为中心转变变
  • 一、什么是WWW服务现在在Internet上最热门的服务之一就是环球信息网WWW(World Wide Web)服务,Web已经成为很多人在
  • Godaddy主机怎样使用FileManger来上传文件呢?下面我来讲解一下上传过程:首先.登陆你的AccountManager.第二.在M
  • 多快好省地完成一件事是所有人都在追求的,所以就有了黑帽SEO。但俗话说:盗亦有道,如果把SEO黑帽做成黑客,就已经超出一个网络营销人员、SE
手机版 网站运营 asp之家 www.aspxhome.com