Mysql字符集和排序规则详解
作者:Java面试365??????? 发布时间:2024-01-17 05:27:46
前言
计算机存储数据的方式都是二进制数据,但是我们在mysql中存储的是字符串数据,那么这些数据到底在Mysql中如何存储呢?这就涉及到字符集的概念。
什么是字符集
举例如下,假设存在编码集test,只能识别a,b,A,B这几项,同时编码规则如下:
a---->00000001(0x01)
b---->00000010(0x02)
A---->00000011(0x03)
B---->00000100(0x04)
那么字符串'aAB'可以映射为 000000010000001100000100(十六进制 0x10304)
而ac将无法转换,因为超出了识别范围。
上面提到的将字符串根据字符集映射为二进制的过程称之为编码,反之就为解码。
什么是比较规则
那什么是比较规则呢?其实就是字符串的比较规则,如上举例而言,可以考虑比较二进制编码的大小,如字符'a'编码值的十六进制为0x01,字符'b'编码值的十六进制为0x02,那么可以确定a<b,这就是二进制比较规则,但是显然这种规则适用范围有限,如果遇到需要忽略大小写的场景,显然二进制编码比较规则并不适用,一个字符集可能对应多种比较规则。
常用字符集
根据上面的举例我们知道了test字符集描述的就是一个字符范围的界定,我们常用的字符集还有很多如下所示
ASCII字符集
这是一个最简单的字符集包含128个字符包含大小写字母,空格,数字,标点符号,特殊字符等,因为总共只有128个字符,那么可以只采用一个字节编码。
ISO8859-1
在ASCII字符集上扩充了128个西欧常用字符,总共包含256个字符,这个字符集又被称为latin1。
GB2312
收录汉字以及拉丁字母,希腊字母等,这种字符集兼容ASCII字符,在编码规则如下:
如果是ASCII编码范围的字符,采用一个字节编码
否则采用两个字节编码
这种情况编码长度不确定的被称为变长编码。
GBK字符集
GBK对GB2312的字符范围进行的扩充,兼容GB2312。
Unicode字符集
UniCode收录了地球上的所有字符,是所有国家通用的字符集,由此又被称为万国码,UniCode的编码规则包含UTF8、UTF16、UTF32这几种编码方案,其中UTF8采用1~4个字节编码一个字符,UTF16使用了2个字节或者4个字节编码一个字符,UTF32采用4个字节编码一个字符。
不过需要注意的是Mysql中没有区分编码方案和字符集,所以后续的uft8可以看作字符集。
注意点
在mysql中有两个特殊的字符集:
utf8mb3:是UniCode字符集编码方案中utf8的 * 版本,采用的是1~3个字节编码一个字符,它的另外一个名字就是utf8也就是说mysql中使用的就是 * 版本的utf8字符集。
**utf8mb4:**采用4个字节编码一个字符,最常见的就是存储emoji表情。
Mysql中查询字符集和比较规则
查询字符集
查询字符集命令可以采用show character set;
或者show charset;
都可以实现字符集查看,可以支持字符集模糊查询如show character set like '%utf8%';
##### mysql5.7.26版本中,包含41个字符集,下面列出常用的几个
mysql> show character set;
+----------+---------------------------------+---------------------+--------+
| Charset | Description | Default collation | Maxlen |
+----------+---------------------------------+---------------------+--------+
| latin1 | cp1252 West European | latin1_swedish_ci | 1 |
| ascii | US ASCII | ascii_general_ci | 1 |
| gb2312 | GB2312 Simplified Chinese | gb2312_chinese_ci | 2 |
| gbk | GBK Simplified Chinese | gbk_chinese_ci | 2 |
| utf8 | UTF-8 Unicode | utf8_general_ci | 3 |
| utf8mb4 | UTF-8 Unicode | utf8mb4_general_ci | 4 |
........
+----------+---------------------------------+---------------------+--------+
41 rows in set (0.00 sec)
查询比较规则
每个字符集都会对应一些比较规则,查询所有字符集的比较规则显然是太多了,所以这里以utf8字符集为例查询比较规则。
#### mysql5.7.26版本中utf8字符集对应27个比较规则,其余省略
mysql> show collation like '%utf8\_%';
+--------------------------+---------+-----+---------+----------+---------+
| Collation | Charset | Id | Default | Compiled | Sortlen |
+--------------------------+---------+-----+---------+----------+---------+
| utf8_general_ci | utf8 | 33 | Yes | Yes | 1 |
| utf8_bin | utf8 | 83 | | Yes | 1 |
| utf8_unicode_ci | utf8 | 192 | | Yes | 8 |
| utf8_spanish_ci | utf8 | 199 | | Yes | 8 |
.........
+--------------------------+---------+-----+---------+----------+---------+
27 rows in set (0.00 sec)
Default列为YES表明该比较规则是默认的,一般比较规则中包含general代表通用比较规则。
比较规则一般命名如规律如下:
以字符集命名开头,如上面提到utf8。
中间一般是指作用于哪种语言,如utf8_spanish_ci,就是以西班牙语的规则比较。
后缀用于区分比较规则如是否区分大小写、重音,二进制等
后缀规则如下:
后缀 | 描述 |
---|---|
_ci | 不区分大小写 |
_cs | 区分大小写 |
_bin | 以二进制的形式比较 |
_ai | 不区分重音 |
_as | 区分重音 |
来源:https://juejin.cn/post/7125630654301077517


猜你喜欢
- 目录前言:另一用法sort 与 sorted 区别:前言:加入我需要对如下几个文件按照从下到大排序,可是他的关键字有多个应该怎么办了?例如我
- 目前市面上成熟的CMS产品有很多,无外乎两种解决方案:第一种就是用XSL+XML的方式来实现客户端具体数据;第二种是生成HTML或者SHTM
- 🚀 文章简介 :本篇文章的实战部分中主要使用到了 MediaPipe 与 OpenCv 两个库,实现了隔空操作的效果,主要有**隔空操作鼠标
- 在使用tensorflow时常常会使用到tf.reduce_*这类的函数,在此对一些常见的函数进行汇总1.tf.reduce_sumtf.r
- 本文实例为大家分享了php微信公众号开发之快递查询的具体代码,供大家参考,具体内容如下快递查询数组用法foreach查询接口是:爱快递:ht
- 本文实例讲述了Python解析json的方法。分享给大家供大家参考,具体如下:刚学习到Python中解析json的方法,觉得有必要在这里坐下
- 网站的改版和重新设计总是一件让人激动的事情,上到老板,下到设计师。更漂亮!更强大!更人性化……参与设计者一定有着无数为新版本骄傲的理由,然后
- 如果你对深度学习和卷积神经网络感兴趣,但是并不知道从哪里开始,也不知道使用哪种库,那么这里就为你提供了许多帮助。在这篇文章里,我详细解读了9
- 内容摘要:图片随机显示是一个应用非常广泛的技巧。比如随机banner的显示,当你进入一个网站时它的banner总是不同的,或者总有内容不同的
- 本文实例讲述了微信小程序使用slider设置数据值及switch开关组件功能。分享给大家供大家参考,具体如下:1、效果展示2、关键代码① i
- 1,SELECT 语句 在SQL的世界里,最最基础的操作就是SELECT 语句了。在数据库工具下直接采用SQL
- Python2.7还是一个比较稳定的版本,目前80%以上的公司都在使用python2.7的版本。他不会在安装的时候报编码错误之类的问题。但是
- 项目中经常会遇到这样的问题:当某个 js 脚本加载完成后再执行相应任务,但很多朋友可能并不知道怎么判断我们要加载的 js 文件是否加载完成,
- 1. 前言python除了丰富的第三方库外,本身也提供了一些内在的方法和底层的一些属性,大家比较常用的如dict、list、set、min、
- 一、方框滤波 方框滤波是均值滤波的一种形式。在均值滤波中,滤波结果的像素值是任意一个点的邻域平均值,等于各邻域像素值之和的均值,而在方框
- __init__()方法意义重大的原因有两个。第一个原因是在对象生命周期中初始化是最重要的一步;每个对象必须正确初始化后才能正常工作。第二个
- 一、Tkinter的介绍和简单教程Tkinter 是 Python 的标准 GUI 库。Python 使用 Tkinter 可以快速的创建
- 描述tan() 返回x弧度的正弦值。语法以下是 tan() 方法的语法:import mathmath.tan(x)注意:tan()是不能直
- 导语哈喽铁汁们好久不见吖~小编已经复工了于是马不停蹄赶来给大家准备新年礼物算开工礼物吧!海龟来作图虎年就是要画老虎2022不用纸和笔~今晚画
- MySQL 查询合并如果我们需要将两个select语句的结果作为一个整体显示出来,我们就需要用到union或者union all关键字。un