MySQL中join语句怎么优化
作者:Java识堂 发布时间:2024-01-15 20:53:35
Simple Nested-Loop Join
我们来看一下当进行 join 操作时,mysql是如何工作的。常见的 join 方式有哪些?
如图,当我们进行连接操作时,左边的表是驱动表,右边的表是被驱动表
Simple Nested-Loop Join 这种连接操作是从驱动表中取出一条记录然后逐条匹配被驱动表的记录,如果条件匹配则将结果返回。然后接着取驱动表的下一条记录进行匹配,直到驱动表的数据全都匹配完毕
因为每次从驱动表取数据比较耗时,所以MySQL并没有采用这种算法来进行连接操作
Block Nested-Loop Join
既然每次从驱动表取数据比较耗时,那我们每次从驱动表取一批数据放到内存中,然后对这一批数据进行匹配操作。这批数据匹配完毕,再从驱动表中取一批数据放到内存中,直到驱动表的数据全都匹配完毕
批量取数据能减少很多IO操作,因此执行效率比较高,这种连接操作也被MySQL采用
对了,这块内存在MySQ中有一个专有的名词,叫做 join buffer,我们可以执行如下语句查看 join buffer 的大小
show variables like '%join_buffer%'
把我们之前用的 single_table 表搬出来,基于 single_table 表创建2个表,每个表插入1w条随机记录
CREATE TABLE single_table (
id INT NOT NULL AUTO_INCREMENT,
key1 VARCHAR(100),
key2 INT,
key3 VARCHAR(100),
key_part1 VARCHAR(100),
key_part2 VARCHAR(100),
key_part3 VARCHAR(100),
common_field VARCHAR(100),
PRIMARY KEY (id),
KEY idx_key1 (key1),
UNIQUE KEY idx_key2 (key2),
KEY idx_key3 (key3),
KEY idx_key_part(key_part1, key_part2, key_part3)
) Engine=InnoDB CHARSET=utf8;
create table t1 like single_table;
create table t2 like single_table;
如果直接使用 join 语句,MySQL优化器可能会选择表 t1 或者 t2 作为驱动表,这样会影响我们分析sql语句的过程,所以我们用 straight_join 让mysql使用固定的连接方式执行查询
select * from t1 straight_join t2 on (t1.common_field = t2.common_field)
运行时间为0.035s
执行计划如下
在Extra列中看到了 Using join buffer ,说明连接操作是基于 Block Nested-Loop Join 算法
Index Nested-Loop Join
了解了 Block Nested-Loop Join 算法之后,可以看到驱动表的每条记录会把被驱动表的所有记录都匹配一遍,非常耗时,能不能提高一下被驱动表匹配的效率呢?
估计这种算法你也想到了,就是给被驱动表连接的列加上索引,这样匹配的过程就非常快,如图所示
我们来看一下基于索引列进行连接执行查询有多快?
select * from t1 straight_join t2 on (t1.id = t2.id)
执行时间为0.001秒,可以看到比基于普通的列进行连接快了不止一个档次
执行计划如下
驱动表的记录并不是所有列都会被放到 join buffer,只有查询列表中的列和过滤条件中的列才会被放入 join buffer,因此我们不要把 * 作为查询列表,只需要把我们关心的列放到查询列表就好了,这样可以在 join buffer 中放置更多的记录
如何选择驱动表?
知道了 join 的具体实现,我们来聊一个常见的问题,即如何选择驱动表?
如果是 Block Nested-Loop Join 算法:
当 join buffer 足够大时,谁做驱动表没有影响
当 join buffer 不够大时,应该选择小表做驱动表(小表数据量少,放入 join buffer 的次数少,减少表的扫描次数)
如果是 Index Nested-Loop Join 算法
假设驱动表的行数是M,因此需要扫描驱动表M行
被驱动表的行数是N,每次在被驱动表查一行数据,要先搜索索引a,再搜索主键索引。每次搜索一颗树近似复杂度是以2为底N的对数,所以在被驱动表上查一行的时间复杂度是 2 ∗ l o g 2 N 2*log2^N 2∗log2N
驱动表的每一行数据都要到被驱动表上搜索一次,整个执行过程近似复杂度为 M + M ∗ 2 ∗ l o g 2 N M + M*2*log2^N M+M∗2∗log2N
显然M对扫描行数影响更大,因此应该让小表做驱动表。当然这个结论的前提是可以使用被驱动表的索引
总而言之,我们让小表做驱动表即可
当 join 语句执行的比较慢时,我们可以通过如下方法来进行优化
进行连接操作时,能使用被驱动表的索引
小表做驱动表
增大 join buffer 的大小
不要用 * 作为查询列表,只返回需要的列
来源:https://blog.csdn.net/zzti_erlie/article/details/123650979


猜你喜欢
- 本文为大家分享了MySQL 8.0.29 安装配置方法图文教程,供大家参考,具体内容如下一、下载MySQL1、进入MySQL官网MySQL并
- 本文实例为大家分享了Vue实现通知或详情类弹窗的具体代码,供大家参考,具体内容如下效果如图所示:(整体样式模仿ant-design-vue
- TF 目前发布2.5 版本,之前阅读1.X官方文档,最近查看2.X的文档。tensorflow是非常强的工具,生态庞大tensorflow提
- 现在jquery应用的越来越多, 有些同学在享受爽快淋漓coding时就将性能问题忽略了, 比如我. jquery虽
- 在MySQL中可以使用IF()、IFNULL()、NULLIF()、ISNULL()函数进行流程的控制。1、IF()函数的使用IF(expr
- 铃铃铃…… 上课了老师在黑板写着这么一个标题 《Python: 你所不知道的星号 * 用法》同学A: 呃,星号不就
- 爬虫中scrapy.Request的更多参数scrapy.Request的参数scrapy.Request(url[,callback,me
- 先看一个需求from collections import defaultdict"""需求: 统计user_
- 一般用 createProcessingInstruction 方法创建处理指令指定参数为 "xml","ve
- 一、修改Linux默认的IO调度算法.linux默认的IO调度算法为cfq,需要修改为dealine,如果是SSD或者PCIe-SSD设备,
- Python是我喜欢的语言,简洁,优美,容易使用。前两天,我很激昂的向朋友宣传Python的好处。听过之后,朋友问我:好吧,我承认Pytho
- 实例一:题目:有四个数字:1、2、3、4,能组成多少个互不相同且无重复数字的三位数?各是多少?程序分析:可填在百位、十位、个位的数字都是1、
- 由于笔者最近在做一个跨数据库操作的测试,开始做IBatisNet (IBatis.DataMapper.1.6.2/IBatis.DataA
- 如下所示:def draw_circle(event,x,y,flags,param): global ix,iy,drawin
- 最近开发的telemetry采集系统上线了。听起来高大上,简单来说就是一个grpc/udp服务端,用户的机器(路由器、交换机)将它们的各种统
- channel首先明确一下channel的作用:用于go协程间的通信。go语言最大的特点就是支持高并发:goroutine和channel是
- 本文实例讲述了Python设计模式之工厂模式。分享给大家供大家参考,具体如下:工厂模式是一个在软件开发中用来创建对象的设计模式。工厂模式包涵
- 最近需要将csv文件转成DataFrame并以json的形式展示到前台,故需要用到Dataframe的to_json方法to_json方法默
- 上周接到个需求,需求是这样的:用户扫一扫二维码会产生一个链接,该链接会向后端发送个请求,返回一个 apk 的下载地址,用户点击下载按钮可以下
- 一、Pandas两大数据结构的创建序号方法说明1pd.Series(对象,index=[ ])创建Series。对象可以是列表\ndarra