网站运营
位置:首页>> 网站运营>> 网站文章内链的一个思路

网站文章内链的一个思路

作者:沈力 来源:月光博客 发布时间:2009-09-03 11:59:00 

标签:内链,外链,文章

内链:顾名思意就是在自己网站的内容中的相关文字加入链接,并且链接到网站内部的相关页面。合理的网站内空链接构造,能提高搜索引擎的收录与网站权重。相对外部链接,内部链接也很重要。

传统方式

以前我们做文章系统或新闻发布系统的时候,做文章内链(标签)的时候,通常是通过以下方式来实现的:

数据库:article(文章表)字段(id, title, body, adddate, userid),keyword(内链表)字段(id, name, link)

在发布文章的时候,循环内链表内的所有,来替换文章的body。

这样确实是实现了想要的功能,但是如果我们的内链表的数据达到很大的数目,比如2W、5W或更多的时候。每发布和修改一片文章的效率是可想而知的。那么网易的新闻、百度的百科等这样打大型网站是如何实现的呢?如果按照以上的做法,那系统在几个月后就直接崩溃了。

分析比较

一篇正常的文章会有多少字(不计HTML代码)?1W?我想1W的文章已经算是很长的了,而且想在如果直接在一个页面显示1W的文章相信没有几个人有耐心能看完的。为了页面美观和用户体验,编辑通常都是将内容过多、篇幅超长内容的文章分段处理(分为几篇文章,或分章节)。如果我们能事先将可能出现内链的字从文章中提取出来,再从数据库里检索,这样效率是不是就可以得到很大的提高?答案是肯定的。我们就拿1W字的文章来说,假设文章的所有文字都需要内链,循环的次数是1W次。比上面的例子假设要强得多吧?

在传统方式中,不管你要不要,把内链表的东西全查一边。而下面这种思路是事先将有可能出现内链的字词全部整理出来,再用这些词分别去检索内链表。这样一比较问题就出来了。

新思路就是:从文章中取出需要内链的字词,然后去查询内链表。

可行操作

我们暂且把传统方式称为被动方式,把新思路的方法称为主动方式。

主动方式的实现方法如下。

利用中文分词技术,我们可以对一篇文章进行分词。然后根据分词后的词表,过滤掉常用的物主代词、副词、感叹词等。把名词、品牌、地名、商标等留下,或者根据自己的词库表来分词。然后把剩余的字词去检索内链表,如果有存在,我们就坐上链接,不存在就PASS。

以上只是思路的一个初步构思,在实际实现过程中需要考虑的因素很多。我觉得重点就在分词这个环节。

0
投稿

猜你喜欢

  • 我们经常发现一些发布商反映他们的广告代码被别人放到了他不知道的网站上。有些发布商会莫名其妙的收到我们的警告信,然后发现那个网站根本不是自己的
  • 企业信息化技术的应用,以不可逆转。随着文件服务器、ERP管理软件等等在企业中生根发芽,应用服务器也逐渐在企业中普及起来。以前在企业中有一台应
  • Mozilla终于发布Firefox 3.6正式版了,这对Firefox来说又是一个具有里程碑意义的版本。也可能是一年之内唯一的一个主要版本
  • 在寂寞天涯老师滴提点下,自己加了一个函数。现分享一下:本人只会ASP,不懂PHP,只能用举一反三的方法加自己想要的功能了。。。修改/incl
  • 你的网站是不是常常被黑,或者一不注意就成了黑客的“肉鸡”?对于Web网站服务器来说,如果不进行安全设置,很容易被黑客“盯上”,随时都有被入侵
  • 在互联网快速发展的同时,网络广告也在蓬勃地发展,呈现出了巨大的发展空间。据媒体规划与收购公司实力传播发表的数据显示,互联网广告今年的全球市场
  • 自国内知名的网站内容管理系统DedeCMS v5.7 beta版2月21日发布以来,经过两周紧张的测试和调整。织梦CMS于昨日下午发布DeD
  • Linux使用 iftop 实时监控网卡的流量,,具体内容如下所示:iftop可以用来监控网卡的实时流量(可以指定网段)、反向解析IP、显示
  • 在搜索实践中还会涌现出新的问题,产生新的关键词选择原则及更多的经验技巧。学会对关键词分析与处理的常用知识,也会加深我们对搜索引擎的理解,能让
  • 说实话,没有人喜欢将自己的网站搬来搬去,可是有时候由于种种原因又不得不做出搬家的无赖选择。下面这篇文章来自谷歌网站管理员博客,看看,从搜索引
  • 一、操作系统的选择FTP服务器首先是基于操作系统而运作的,因而操作系统本身的安全性就决定了FTP服务器安全性的级别。虽然Windows 98
  • 每个网站在建立和完善的时候,都在偏向于搜索引擎的嗜好,这是在流量为王的互联网时代不可避免的,毕竟百度、google等搜索引擎是流量入口。那如
  • 目前,就我所知道的对于301重定向的方法,有两个:1.利用apache支持的.htaccess进行改写,实现重定向2.利用程序进行域名的30
  • Vim编码的详细介绍Vim和所有的流行文本编辑器一样,Vim 可以很好的编辑各种字符编码的文件,这当然包括 UCS-2、UTF-8 等流行的
  • 目前,在广大站长的殷切期盼下,康盛创想(Comsenz)旗下的UCenter Home(简称UCHome)体验站陆续推出了涂鸦版、凑热闹、在
  • POP3(Post Office Protocol 3)即邮局协议的第3个版本,它规定怎样将个人计算机连接到互联网上的邮件服务器和下载电子邮
  • 上载了文档,为什么网站显示不出来呢? 如果你上载网站内容后却看不到你的网站,检查如下事项。第一、要是你的网站内容正常显示,你必须要把文档上载
  • Linux启动后出现boot:提示时,使用一个特殊的命令,如linuxsingle或linux 1,就能进入单用户模式(Single-Use
  • 说实话,我刚开始重新搞91now不知道什么SEO,啥叫SEO?现在我的站被百度收录 185000页,现在日访问量 1W 左右虽然大部分是采集
  • 前言本章节是用基本的Linux基本函数加上epoll调用编写一个完整的服务器和客户端例子,可在Linux上运行,客户端和服务端的功能如下:客
手机版 网站运营 asp之家 www.aspxhome.com