MySQL 全文索引的原理与缺陷
作者:袁志蒙 发布时间:2024-01-16 18:54:16
MySQL全文索引一种特殊的索引,它会把某个数据表的某个数据列出现过的所有单词生成一份清单。
alter table tablename add fulltext(column1,column2)
说明:
只能在MyISAM数据表中创建
全文索引是以空格或标点隔开才能搜到的,搜中文是搜不到(有专门的应用支持中文分词可以搜中文,但都不理想)
少于3个字符的单词不会被包含在全文索引里,可以通过修改my.cnf修改选项
ft_min_word_len=3
重新启动MySQL服务器,用repair table tablename quick
为有关数据表重新生成全文索引
select * from tablename where match(column1,column2) against('word1 word2 word3')>0.001
match ... against 把column1,column2数据列中至少包含word1,word2,word3三个单词之一的数据记录查找到,在关键字match后的数据列必须 跟创建全文索引的数据列相同,检索词不区分大小写和先后顺序,少于3个字符的单词通常被忽略。match... against ...表达式返回一个浮点数作为它本身的求值结果,这个数字反映了结果记录与被检索单词的匹配程度。如果没有匹配到任何记录,或者匹配到的结果记录太多反 而被忽略,表达式将返回0,表达式>0.001的作用是排除match的返回值太小的结果记录。
select *,match(column1,column2) against ('word1 word2 word3') as mtch
from tablename
having mtch>0.01
order by mtch desc
limit 5
找出最匹配的5条记录,在where字句中不能使用假名,所以用having
布尔全文搜索的性能支持以下操作符:
+word:一个前导的加号表示该单词必须 出现在返回的每一行的开头位置。
-word: 一个前导的减号表示该单词一定不能出现在任何返回的行中。
(无操作符):在默认状态下(当没有指定 + 或–的情况下),该单词可有可无,但含有该单词的行等级较高。这和MATCH() ... AGAINST()不使用IN BOOLEAN MODE修改程序时的运作很类似。
> <这两个操作符用来改变一个单词对赋予某一行的相关值的影响。 > 操作符增强其影响,而 <操作符则减弱其影响。请参见下面的例子。
( )括号用来将单词分成子表达式。括入括号的部分可以被嵌套。
~word:一个前导的代字号用作否定符, 用来否定单词对该行相关性的影响。 这对于标记“noise(无用信息)”的单词很有用。包含这类单词的行较其它行等级低。
word* :搜索以word开头的单词,只允许出现在单词的末尾
"word1 word" :给定单词必须出现在数据记录中,先后顺序也必须匹配,区分字母大小写
select * from tablename where match(column1,column2) against ('+word1 +word2 -word3' in boolean mode')
布尔检索只能返回1或者0,不再返回表示匹配程度的浮点数
全文索引的缺陷:
1.数据表越大,全文索引效果好,比较小的数据表会返回一些难以理解的结果。
2.全文检索以整个单词作为匹配对象,单词变形(加上后缀,复数形式),就被认为另一个单词。
3.只有由字母,数字,单引号,下划线构成的字符串被认为是单词,带注音符号的字母仍是字母,像C++不再认为是单词
4.不区分大小写
5.只能在MyISAM上使用
6.全文索引创建速度慢,而且对有全文索引的各种数据修改操作也慢
7.不支持中文
来源:https://blog.yzmcms.com/mysql/101.html
猜你喜欢
- 很多时候可能需要在一个图中画出多条函数图像,但是可能y轴的物理含义不一样,或是数值范围相差较大,此时就需要双y轴。matplotlib和se
- 1.sonarqube是一款代码分析的工具,通过soanrScanner扫描后的数据传递给sonarqube进行分析2.sonarqube社
- Python装饰器,分两部分,一是装饰器本身的定义,一是被装饰器对象的定义。一、函数式装饰器:装饰器本身是一个函数。1.装饰函数:被装饰对象
- 秒杀活动可以说在互联网上随处可见,从12306抢票,到聚划算抢购,我们生活的方方面面都可以看到秒杀的身影。秒杀的架构设计也是对于一个架构师架
- # -*- coding: utf-8 -*-def insertion_sort(A): "
- 方法一:现在用 notepad++,在 UTF-8 格式下编写以下语句:#coding=utf-8 print"打印中文字符&qu
- 目标网址:https://www.baidu.com/要获取的内容:链接分析:从下图可以看出只需要获取关键字,再构建就可以了。完整代码:im
- 计算表达式:1 - 2 * ( (60-30 +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/
- 下面是用Python实现Floyd算法的代码,供大家参考,具体内容如下# -*- coding: utf-8 -*- ""
- 表级锁该锁会锁定整张表,它是MySQL中最基本的锁策略,并不依赖于存储引擎(不管你是MySQL的什么存储引擎,对于表锁的策略都是一样的),并
- 1.引言效果图:ISBN查询工具通常用于图书管理、图书销售、图书收集和阅读等场景。以下是一些具体的应用场景:图书管理系统:ISBN查询工具可
- 问题一:安装模块时出现报错 Microsoft Visual C++ 14.0 is required,也下载安装了运行库依然还是
- 前言光流flow特征中包含了一个视频当中运动相关的信息,在视频动作定位当中光流特征使用的比较多,所以记录一下提取光流特征的方法。使用的方法是
- eval()函数可以将字符串型的list、tuple、dict等等转换为原有的数据类型即使用eval可以实现从元组,列表,字典型的字符串到元
- defaultdict底层代码:在字典中查找某个值时,若key不存在时则会返回一个KeyError错误而不是一个默认值,这时候可以使用def
- Readme:blog address:摘要:编写登录接口输入用户名、密码认证成功后显示欢迎信息输错3次后锁定关键词:循环;判断;外部数据读
- 一.基于纹理背景的图像分割该部分主要讲解基于图像纹理信息(颜色)、边界信息(反差)和背景信息的图像分割算法。在OpenCV中,GrabCut
- python版本:3.6+需要模块:flask,pillow需求:开发一个支持多格式图片上传的接口,并且将图片压缩,支持在线预览图片。目录结
- 本文介绍了使用Application来统计访问网站的在线人数的方法,并介绍了使用Application时应该注意的事项。首先讲明白,用ASP
- 本文实例讲述了Python Web编程之WSGI协议。分享给大家供大家参考,具体如下:WSGI简介Web框架和Wen服务器之间需要进行通信,