网站运营
位置:首页>> 网站运营>> 网站文章内链的一个思路

网站文章内链的一个思路

作者:沈力 来源:月光博客 发布时间:2009-09-03 11:59:00 

标签:内链,外链,文章

内链:顾名思意就是在自己网站的内容中的相关文字加入链接,并且链接到网站内部的相关页面。合理的网站内空链接构造,能提高搜索引擎的收录与网站权重。相对外部链接,内部链接也很重要。

传统方式

以前我们做文章系统或新闻发布系统的时候,做文章内链(标签)的时候,通常是通过以下方式来实现的:

数据库:article(文章表)字段(id, title, body, adddate, userid),keyword(内链表)字段(id, name, link)

在发布文章的时候,循环内链表内的所有,来替换文章的body。

这样确实是实现了想要的功能,但是如果我们的内链表的数据达到很大的数目,比如2W、5W或更多的时候。每发布和修改一片文章的效率是可想而知的。那么网易的新闻、百度的百科等这样打大型网站是如何实现的呢?如果按照以上的做法,那系统在几个月后就直接崩溃了。

分析比较

一篇正常的文章会有多少字(不计HTML代码)?1W?我想1W的文章已经算是很长的了,而且想在如果直接在一个页面显示1W的文章相信没有几个人有耐心能看完的。为了页面美观和用户体验,编辑通常都是将内容过多、篇幅超长内容的文章分段处理(分为几篇文章,或分章节)。如果我们能事先将可能出现内链的字从文章中提取出来,再从数据库里检索,这样效率是不是就可以得到很大的提高?答案是肯定的。我们就拿1W字的文章来说,假设文章的所有文字都需要内链,循环的次数是1W次。比上面的例子假设要强得多吧?

在传统方式中,不管你要不要,把内链表的东西全查一边。而下面这种思路是事先将有可能出现内链的字词全部整理出来,再用这些词分别去检索内链表。这样一比较问题就出来了。

新思路就是:从文章中取出需要内链的字词,然后去查询内链表。

可行操作

我们暂且把传统方式称为被动方式,把新思路的方法称为主动方式。

主动方式的实现方法如下。

利用中文分词技术,我们可以对一篇文章进行分词。然后根据分词后的词表,过滤掉常用的物主代词、副词、感叹词等。把名词、品牌、地名、商标等留下,或者根据自己的词库表来分词。然后把剩余的字词去检索内链表,如果有存在,我们就坐上链接,不存在就PASS。

以上只是思路的一个初步构思,在实际实现过程中需要考虑的因素很多。我觉得重点就在分词这个环节。

0
投稿

猜你喜欢

  • PHPWind v7.3.2开启门户模式为默认后打开read页面导致浏览器死掉问题。打开:mode/area/template/read.h
  • 在很早之前,麦田老师抛出“博客过时论”之后,就真的再也没有见麦田老师更新过博客,似乎是从本身的行动来证明自己的言论。从那时起或者是更早之前,
  • UCenter Home是其发布的一款SNS建站系统,自发布至今国内采用UCenter Home搭建的地方及垂直SNS已经超过13万家。在
  • 看着Amazon,有时候我就想:创新难道就是要坚持不停的穷折腾? 也许是的。Amazon是家执着且运气很好的公司,生来就有“兼并”和“不务正
  • Options FollowSymLinksAllowOverride NoneApache服务器可以针对目录进行文档的访问控制,然而访问控
  • 很久没写文章了,前段时间GG帐户又被封了,损失了几千刀.稍微休息了下,08年想做个英文站玩一下.2月16那天ARY来我家拜年,聊了一些关于英
  • 如果你关注过nginx,必定知道nginx这个软件有什么用的,如果你的网站访问量越来越高,一台服务器已经没有办法承受流量压力,那就增多几台服
  • 我昨天在赛迪网技术社区[url]http://bbs.network.ccidnet.com/thread.php?fid=24[/url]
  • 作为读者来说,退订(包括Twitter上Unfollow)不想看的内容是好事,道理很简单,不再赘述。那么,博主、推友会因被读者退订、Unfo
  • 这里我主要针对SEO工作中的链接建立来谈,因为这部分工作是困扰很多SEO人员和站长的首要难题。1、友情链接这个方法估计是站长和推广人员使用最
  • 校内网在发blog时对插入图片过滤不严格,存在xss漏洞在发blog时将插入图片URL写为如下代码即可触发:javascript:windo
  • 由于提供了FTP下载而又限制了线程,所以总发现有人不断用多线程进行尝试,这样会大大增加服务器的负荷,这种事“损人不利己”!为了“惩罚”这种人
  • 网店刚开张的时候,有多事情需要网店新手去做,可以说刚开始经营网店是很辛苦的,不过现在的辛苦是为了以后能很好的,轻松的管理好我们的店铺,下面说
  • 网络上有这样一种说法,说混血儿更聪明,后来又听说根据优生学的原理,血缘关系越远的个体进行基因配对,越能取得杂交优势。所以混血儿就会比较聪明。
  • 相信在自己的网站上使用AdSense的朋友都曾遇到过展示英文广告的情况,即使网页内容全部为中文,即使访问用户全部来自中国或中文区域。虽然出现
  • 虽然有插件可以自定义表情,但是由于用的线路不是很好,不想装太多插件,所以找了下其他办法。1.进入后台-设置-撰写-格式:“转换如 、 等
  • 实用性/方便浏览1 . 网站导航你的网站导航要易于使用。你要确保新访问者能够通过你的网站导航简单方便并且快速的找到他所要的内容。2 . 搜索
  • 本文介绍了提升网站利润,宣传网站的一些方法,当然并不一定适用所有网站。 1、用活生生的标语广告宣传你的网站,呼唤人们行动起来。你必
  • 在“ * ”事件发生后,阿娇在发表了道歉声明之后,阿娇的一句“很傻很天真”迅速成为网络流行语。继上次恶搞“很黄很暴力”后又一句网络流行语。阿
  • 在维护公司内部网站时碰到一个实际问题——MIS主管要求将一些技术文件放在网页上,且只能让MIS 的员工浏览。这就涉及到如何对网页保密的问题。
手机版 网站运营 asp之家 www.aspxhome.com