Mysql简易索引方案讲解
作者:把苹果咬哭的测试笔记 发布时间:2024-01-20 15:08:11
Mysql简易索引
一、没有索引的时候如何查找
先忽略掉索引这个概念,如果现在直接要查某条记录,要如何查找呢?
在一个页中查找
如果表中的记录很少,一个页就够放,那么这时候有 2 种情况:
用主键为搜索条件:这时就是之前文章提过的方式,页面目录中用二分法快速定位到槽,然后遍历该槽对应分组的记录,最终找到指定记录。
用其他非主键的列为搜索条件:因为数据页中没有为非主键列建立页目录,无法通过二分法快速定位槽,只能从 Infimum 记录开始一次遍历单链表的每条记录,效率低下。
在很多页中查找
当表中的记录非常多,就会用到很多的数据页来存储,这时候需要 2 个步骤:
定位到记录所在页。
重复上述在一个页中查找的过程。
总得来说,当没有索引,我们无法快速定位到记录所在页,只能从第一页沿着双向链表(页有前一页和后一页)一直找下去,然后在每一页中重复上述的过程查询指定的记录,需要遍历所有记录,这种方式非常耗时。
二、一个简易索引
既然是因为页数太多导致定位记录太慢,那如何解决呢?不妨参考一下“页目录”。
页目录就是为了根据主键快速定位一条记录在页中的位置而设置的。那么我们也可以想办法为快速定位记录所在的页,搞一个“别的目录”。
但是这个“别的目录”要想完成还得干好 2 件事。
1. 下一页用户记录的主键值必须大于上一页的
假设,每个数据页最多可以放 3 条记录(实际上可以放很多),那么现在向表里插入 3 条记录,每条记录有3个列 c1、c2、c3。为了看着方便,存储行格式也简化下,只留关键属性。注意中间3条是用户记录,首尾的2条是虚拟记录 Infimum 和 Supremum。
此时,继续插入 1 条记录。按照假设的情况,现在需要多分配一个新的页,所以 2 个页之间就变成了这样。
注意红色字体显示的2条记录,本来主键 4 的记录是新插入的,按理应该放在新的页。但是,为了满足下一页用户记录的主键值必须大于上一页的用户记录主键值,做了诸如记录移动的操作,这个过程也可以称为“页分裂”。
另外,为什么新页是页 28,而不是 11?因为页在磁盘上可能并不挨着,它们只是通过维护上一页和下一页的编号而建立了链表关系。
2. 给所有的页建立一个目录项
现在继续向表里增加数据,最终多个页的关系是这样:
因为这些页在磁盘上可能不挨着,所有想要快速从这么多页中根据主键快速定位某记录,就要给它们编制一个目录。
每个页对应一个目录项,每个目录项包括:
页的用户记录中最小的主键值,用 key 来表示
页号,用 page_no 表示
所以,给它们编好目录之后就是这样的关系:
那么,现在我想查找主键值为 20 的记录,具体就分两步走:
先从目录项中根据二分法快速确定出主键值为 20 的记录所在目录项 3 中,且对应的页为 9。知道是在页 9,重复之前的方式,找到最终目标记录。
到此,一个简易的方案完成。而完成的这个简易目录,它有个别名,叫做索引。
三、简易索引暴露出的问题
上述的简易索引是原书作者为了循序渐进的帮助读者理解而设置的内容,这并不是innodb的索引方案。
那么针对上述的建议索引,看下有哪些问题。
问题一:
InnoDB 使用页作为管理存储空间的基本单位,也就是最多只能保存16kb的连续存储。
当表中记录越来越多,此时就需要非常大的连续存储空间才可以把所有的目录项都装下,这对大数据量的表来说不现实。
问题二:
我们经常还要对记录执行增删改操作,会牵一发而动全身。
比如,上图中我如果把页 28 中的记录都删除,那么页 28 就没必要存在,进而目录项 2 也没必要存在。这时候就需要把目录项 2 后的目录项都向前移动一下。
就算不移动,把目录项 2 作为冗余放在目录项列表中,仍然会浪费很多的存储空间。
所以,InnoDB 的作者发现了一种灵活管理所有目录项的方式,详见下一篇。
本文参考书籍:《mysql是怎样运行的》
来源:https://blog.csdn.net/wessonlan/article/details/124813001


猜你喜欢
- 问题你想重新加载已经加载的模块,因为你对其源码进行了修改。解决方案使用imp.reload()来重新加载先前加载的模块。举个例子:>&
- 经过一轮的项目封闭开发,页面制作的动手能力提高了不少,用AW的话说就是被复杂的东西虐过以后很多问题都变得容易了,的确很有道理。我个人觉得技术
- excel转置分为两种情况,一个是较为简单的只需要行转列,列转行最简单的转置,利用pandas里面的转置**.T**函数代码如下:impor
- 使用matplotlib绘图时,在弹出的窗口中默认是有工具栏的,那么这些工具栏是如何定义的呢?工具栏的三种模式matplotlib的基础配置
- 1、二者的区别apply(): 非异步(子进程不是同时执行的),堵塞主进程。它的非异步体现在:一个一个按顺序执行子进程, 子进程不
- SQL(结构化查询语言)是一种通用数据库查询语言。SQL具有数据定义、数据操作和数据控制功能,可以完成数据库的全部工作。SQL语言使用时只需
- 1、使用MySQLdb读取出来的数据是unicode字符串,如果要写入redis的hash中会变成"{u'eth0_out
- 主程序mainaddfunc.pyfrom flask import Flask, render_template, request, ur
- 前言ImageNet 是一个著名的公共图像数据库,用于训练对象分类、检测和分割等任务的模型,它包含超过 1400 万张图像。在 Python
- 由于 window.onload 事件需要在页面所有内容(包括图片等)加载完后,才执行,但往往我们更希望在 DOM 一加载完就执行脚本。其实
- 本文实例讲述了Python3使用turtle绘制超立方体图形。分享给大家供大家参考,具体如下:利用Python3中turtle的绘制超立方体
- 前言Python 这门语言最大的优点之一就是语法简洁,好的代码就像伪代码一样,干净、整洁、一目了然。但有时候我们写代码,特别是 Python
- Django 提供内置的视图(view)函数用于处理登录和退出 (以及其他奇技淫巧),但在开始前,我们来看看如何手工登录和退出。 Djang
- 文件名全小写,可使用下划线包应该是简短的、小写的名字。如果下划线可以改善可读性可以加入。如mypackage。模块与包的规范同。如mymod
- 代码如下:function HTMLEncode(fString) fString=Replace(fString,&q
- 最近在看《深度学习:基于Keras的Python实践(魏贞原)》这本书,书中8.3创建了一个Scikit-Learn的Pipeline,首先
- 之前有看过一个博文写的是白社会的设计很好但运营却有些遭,因为对每一个WebGame的推出时间把握不准,会有几个应用同时上线造成影响力的冲突,
- 1、net/http爬虫net/http配合正则表达式爬虫。package mainimport ("fmt""
- 运行下列脚本,可以打印出模型各个节点变量的名称:from tensorflow.python import pywrap_tensorflo
- post接收字符串def subscription(request): msg = request.POST.get('