网站数据的采集及实践
作者:淡然一笑 来源:站长网 发布时间:2007-10-01 14:36:00
今天讲一下网站数据的采集及实践。 谁都知道,以前建个站都是辛辛苦苦地一个代码一个代码敲出来的, 那时的站长真是苦工中的苦工,后来就出来的许多的网站模板, 再后来出现了CMS即content manager system(内容管理系统),如动易、DEDE、phmcms等等,这种大大方便了网站的制作和内容的录入。
无疑一个网站的内容丰富性和趣味性是吸引用户的地方,所以图片站总是很火,特别是美女图片,如果想做一个站,复制粘贴肯定是不行的 一夜之间拥有几万张图片几万篇文章才是我们的梦想。那么实现的方式就是数据采集。 今天仅说下数据采集的一些基础东西,高手飘过,菜鸟认真的学,权当入门。
首先是内容的选择。
网上世界千奇百怪,各个站长都千方百计地研究如何吸引眼珠。这做站如同做文章,不可能把所有的东西都收罗进来,要懂得取舍 再好的内容与你的网站主题也要符合,即使垃圾站(即无原创内容大部分是采集他人内容的站)初期阶段可能不予计较,但时间长了,垃圾站的目标仍是把垃圾做成精品,否则就死定了。
如何选择好的内容,我认为要做好以下几个方面:
①选择内容要你的站的主题符合的比较好。
比如做轴承站的可以采集轴承新闻、轴承技术什么的,也可以大一点采集机械制造方面的,但不要太偏离了,就不要选择美女图片这样的内容,虽然这类内容吸引人,但一方面给人造成的感觉不专业,另一方面也容易被百度K。 如果你觉得非采这个不可。可以搞个二级域名的方式专门建个相对独立的站,如pic.xxx.com,和主站相对脱节。 字串7
②采集的内容的格式尽量统一。
尽量选择些精品网站进行采集,采集内容的风格和格式要尽量统一,否则会显得不专业,显得太散乱,影响客户的访问情绪。
③不要一次性采集太多。在建站初期各个栏目适当采集几百条垫底就行了然后每天都采集一些,否则初期太多的流量对一个新站来说也无太大裨益,而且很危险,容易被百度K站。
④采集内容要选好关键字,做好网站的tag,不要见内容就收,否则真成垃圾了 查关键字在百度中的排位情况,是不是有可能冲击前几位,有一二个关键字就够了,这个是流量的保证,就是网站的SEO的一部分,最近才学的,不太懂哈。
⑤为避免百度K站,选择不同编码的站是个不错的建议,比如可以采集big5的繁体站转化成自己的gbk的,有能力的甚至可以通过机器翻译把英文的变成中文站,这样都是原创性的了,被百度K的可能性就是0。 我有一个客户把百度知识的东西通过翻译引擎直接做了个英文知识站。 招数千变,唯一的目标是有安全的流量。
⑥要采集的源站要有持续更新的能力,尽量不要采死站,呵呵, 一方面能经常采集,另一方面这样的站的信息有时效性,可保证你采集的内容新鲜。
猜你喜欢
- 一、工具的使用1、学会使用vim/emacs,vim/emacs是linux下最常用的源码编辑具,不光要学会用它们编辑源码,还要学会用它们进
- Hyper-V Server 2008发布有一些时间了,想来,不少的虚拟化爱好者早已动手安装并在命令行下大展身手了,但对于广大的入门级爱好者
- 3.你的目标目录被限制了访问权限。此项仅当该目录位于NTFS格式分区中时才可能出现。请在其上单击右键,选“属性”,再进入“安全”窗口,看列表
- 经历了近年的某些IDC服务商倒闭事件,国内IDC市场在在俯卧撑式的环境下渐趋理性和成熟,市场开始转型,业内专家认为,IDC产业经历了大起大落
- 随着互联网的快速发展,网购,这个名词对于广大网民来说已经是再熟悉不过了。只要上网,必定穿梭在网上人家的大街小巷之中。可以说互联网上的B2B,
- 曾引发网民热议的“网易老总丁磊养猪”一事,又有新消息!21日,记者独家从相关渠道获悉,网易将先期投资
- 昨晚,Google公司全球副总裁兼中国区总裁李开复博士来到广东外语外贸大学,与在校大学生畅谈求学与人生规划。他从10年来中国大学生向他提的4
- 浏览器的漏洞和恶意脚本程序导致了cookie信息的泄漏,与cookie信息泄漏不同,URL会话信息被泄漏,则是完全出在HTTP协议上,除非修
- 继续关于Godaddy主机问题系列,嘿嘿,今天要介绍的是如何使用CoffeeCup® HTML Editor 2007上传网
- 这时候可以通过如下命令来测试proftpd是否正常运行:C:WINDOWS>ftp192.168.2.33Connectedto192.16
- SEO也不会起到更多的作用了,只有内容才是真正的霸道之物。搜索引擎优化技术人员必须遵循搜索引擎的规律和指导来进行搜索引擎优化操作,而不能不切
- Windows 2003 IIS6 .ASP目录执行漏洞专题Windows 2003 Enterprise Edition是微软目前主流的服
- 代理服务器的功能是代理网络用户取得网络信息,它是网络信息的中转站。随着代理服务器的广泛使用,随之而来的是一系列的安全问题。由于没有对代理服务
- 近两年来,网页游戏发展迅速,从原来单一的文字格斗形式发展到今天,出现了各种类型的网页游戏,战争策略类,休闲竞技类,模拟经营类等。从网页游戏产
- 最近横着走同学貌似在研究CDN.为了威望早点到200.特写一小文章.跟大家一起学习.我们先Google一下CDN的概念:CDN 是一个经策略
- 日前,诸多期待开展IPTV业务的网络视频公司因受困于牌照,版权等问题,前景难卜。记者采访到,有多家视频公司认为自身在短时期内不可能处理好版权
- 鉴于大部分网站入侵都是利用asp木马完成的,特写此文章以使普通虚拟主机用户能更好地了解、防范asp木马。也只有空间商和虚拟主机用户共同做好防
- 最近在看腾讯新闻的时候,无意中发现,当我选中新闻中的文字的时候,鼠标右上角会显示一个“转播至微博”的按钮,点击后就会将选中的文字转发到微博上
- 一年之内,先是搜狐分拆旗下的游戏业务——畅游公司上市,继而盛大网络也将旗下的游戏&mdash
- 前些日子买了三个广告位结果点击率只有0.02%仔细一看怪自己那会太天真,上当了而且还不知道那几个点击是不是真实的。 &