数据库主键的故事(2)
作者:李战 来源:软件真谛 发布时间:2008-05-31 07:50:00
那么,我们在设计数据库结构时,到底该用什么来做主键呢?
对象数据库说,主键只能是对象标识!
至于对象属性是否唯一,那是由业务逻辑所决定的。如果业务逻辑规定订单号不能重复,就为订单号建一个唯一索引好了,但它不是主键。
所以,当我们看到有些数据库设计采用了额外的一个字段来专门充当主键,并用这个主键与其他表关联的话,那就是已经走到对象数据库的门口了。什么“内部码”,“流水号”,“序列号”,“自增数”...通通都可以算是对象标识。
为什么SQL Server要提供自增量字段以及GUID的标识字段呢?都是为了这专门的主键字段服务的。
如果我们打算向对象数据库路上走得话,就请使用对象标识来做专门的主键字段吧。
当然,怎样产生唯一的对象标识来做主键,这也是有说道的。
1.用自增量字段
自增量字段每次都会按顺序递增,可以保证在一个表里的主键不重复。除非超出了自增字段类型的最大值并从头递增,但这几乎不可能。使用自增量字段来做主键是非常简单的,一般只需在建表时声明自增属性即可。
自增量字段的长度可以很短,比如使用一个int类型就基本上够用了。简短的主键可以在大量数据和复杂的关系查询中表现出更好的性能。
自增量的值都是需要在系统中维护一个全局的数据值,每次插入数据时即对此次值进行增量取值。当在当量产生唯一标识的并发环境中,每次的增量取值都必须最此全局值加锁解锁以保证增量的唯一性。这可能是一个并发的瓶颈,会牵扯一些性能问题。
还有,如果要搞分布式数据库的话,这自增量字段就有问题了。因为,在分布式数据库中,不同数据库的同名的表可能需要进行同步复制。一个数据库表的自增量值,就很可能与另一数据库相同表的自增量值重复了。当然,这可以通过指定不同的递增起始值来错开,但总觉得不爽啊。
SQL Server中还可以使用timestamp类型的数据来做对象标识符,这可以使对象标识对整个数据库都是唯一的,而不仅仅是对表唯一。但其优缺点与表的自增字段一样。
2.随机数字段
随机生成对象标识的方法实际就是碰运气。按照某种复杂的随机算法迅速产生对象标识,碰一碰对象标识不重复的运气。只要这种算法产生的对象标识一万年才可能重复一次,那你就可以在实际开发中应用这种算法。比如,SQL Server中提供了uniqueidentifier类型,配合NEWID()函数来产生GUID,基本上可以应用于所有主键需求了。
随机生成标识不需要在系统中维护全局量,不存在自增字段那种加锁解锁的性能开销,对于大量的并发处理来说是个福音。
同时,即使在分布式数据库应用中,不同数据库产生的随机值也是不同的。因此,在数据库的同步复制中,标识相同的就一定是同一条记录,就不会存在产生主键冲突的问题了。
不过,为了保证随机的唯一性,需要大范围的数值空间。这也使得主键字段比较大,在关联查询的时候有一定的性能损失,判断GUID值是否相同总比判断int值是否相同要多费些功夫。
在实际应用中到底该用什么方案来产生对象标识需要根具体情况决定,以上方案仅仅是理论探讨。
接下来要注意的就是主键的索引结构的优化了。
主键都要整成聚集索引。聚集索引在SQL Server内部就是聚集表,聚集表是B树结构,索引值存在B树的中间节点中,而数据行就存放在B树的页节点上。也就是说,聚集索引和数据表其实是一个统一的整体结构。因此,聚集索引查找和定位数据的效率要比一般索引高出很多。
此外,专门主键字段值是永远都不变。聚集索引建值不变,聚集表的节点也不会调整,硬盘上的数据记录块基本不动窝的。这可以极大减少数据库碎片,除非删除数据行。数据库的碎片少了,查询数据自然要快些。
一般来说,我们存入数据库中的数据总是有时间顺序的,我们日常查询和使用的数据也总是近期的数据。有的常用查询甚至总是按时间顺序倒排,比如,邮件列表,论坛帖子。如果主键采用的是自增字段,我们不妨将增量值设为-1或干脆搞成倒序的主键。这样,查询的排序与扫描索引的顺序相同,毕竟硬盘的磁头总喜欢从前往后读,这会稍微提高一点读取聚集索引的速度。
同样,如果使用随机主键值的方案,我们也建议采用与时间相关的随机数值,而不是GUID。与时间相关的随机数就是,虽然主键是随机产生的,但后产生的随机数应该大于先产生的数。
为什么不用GUID呢?因为它生成的值就像顽皮的猴子,到处乱跳。于是,在每次插入记录时,聚集索引节点中相邻的值并不具有时间上的顺序。而当我们习惯性地查询近期数据时,硬盘的磁头也需要像猴子般乱跳一通之后才能读到按时间顺序的所有数据。
如果采用有时间顺序的随机值,聚集索引插入数据时总往一个方向增加数据行的页节点,与同一时期的数据行几乎总相邻。查询同期数据时,磁头就很少乱跳了。磁头一次可以读取一批数据,效率有将有所提升。如果您用电子显微镜去观察硬盘的表面,聚集索引的那颗B树将生长得很正很齐。
对磁头读写的优化,是完美主义的程序员所追求的,是否采用完全看自己的心态。总之,高兴就好。当然,等将来的大容量存储设备都用上固态盘了,没磁头了,全电信号了,这些优化就都没有什么意义了。
所以呢,追求完美也是很痛苦的。吃了程序员这碗饭,就只能被IT的洪流卷着往前走。我们不过是这洪流中的一粒沙子,不知道又会被带到何方?
王菲在一首歌中这样唱到:一路上有人太早看透生命的


猜你喜欢
- <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN"
- 需求在画布上用鼠标画图,可以画圆或矩形,按m键在两种模式下切换。左键按下时开始画图,移动到哪儿画到哪儿,左键释放时结束画图。实现思想用鼠标画
- 如何让你的CSS代码更具有组织性和易维护性,为什么你的样式表总是臃肿和混乱的?有些时候是源于一开始书写时的混乱和草率,有时候也是因为后期的维
- 许多函数式文章讲述的是组合,流水线和高阶函数这样的抽象函数式技术。本文不同,它展示了人们每天编写的命令式,非函数式代码示例,以及将这些示例转
- 背景:我司Redis服务器使用的亚马逊服务,本地需要通过跳板机,然后才有权限访问Redis服务。连接原理:使用SSHTunnelForwar
- 背景sy项目通过MQ接受业务系统的业务数据,通过运行开发者开发的python脚本执行业务系统与财务系统数据的一致性校验。sy系统需要每天运行
- ORM模型:ORM模型对于后端开发来说肯定是不陌生的,包括很多后端框架比如django,现在都自带这个模型了ORM(Object Relat
- 一般打印就用window.print();就OK了 但是一般都是选择性打印所以会调用方法: function preview() { bdh
- numpy和matlab的几点差异Python numpy和matlab都是便捷灵活的科学计算语言,两者具有很多相似之处,但也有一些混淆的地
- 目录1. 正则表达式_匹配单个字符2. 正则表达式_匹配多个字符3. 正则表达式_匹配分组小提示:4. 小练习答案:总结1. 正则表达式_匹
- 如何向前端推送用户请求的信息?postinfo.htm<head><title>asp教程之回应用户请求信息&nbs
- 将一个 awk 脚本移植到 Python 主要在于代码风格而不是转译。脚本是解决问题的有效方法,而 awk 是编写脚本的出色语言。它特别擅长
- 一、Python简介Python是一种面向对象的解释型计算机程序设计语言。Python是纯粹的自由软件, 源代码和解释器CPython遵循
- 一、sqlSession简单介绍拿到SqlSessionFactory对象后,会调用SqlSessionFactory的openSesiso
- 我们很多时候,特别是在生成任务的时候,都需要一个唯一标识字符串来标识这个任务,比较常用的有生成uuid或者通过时间来生成。uuid的话可以直
- 最近开发过程中遇到一些小问题(似乎问题总是那么多),但一直没什么时间去优化与解决。程序员不能被业务绑架,有时间还是花点在代码,开始这次的vu
- 本文实例为大家分享了Python端口扫描的实现代码,供大家参考,具体内容如下获取本机的IP和端口号:import socket def ge
- 最近很少写CSS了,以后也可能写的会很少了,所以还是想把自已的一些经验能和大家分享一下,希望能给大家一些帮助!这篇文章主要写的提高网页在客户
- 一、导出数据库用mysqldump命令(注意mysql的安装路径,即此命令的路径):1、导出数据和表结构:mysqldump -u用户名 -
- python和PHP的难易程度并没有明确的界限,如果是零基础的小白,建议学php会好一些,原因大公司小公司创业公司非互联网公司,都会用到ph