您好,欢迎来到三六零分类信息网!老站,搜索引擎当天收录,欢迎发信息
免费发信息

mysql ft是什么

2024/4/26 6:01:04发布7次查看
mysql ft指的是fulltext,即全文索引;全文索引是为了解决需要基于相似度的查询,而不是精确数值比较;全文索引在大量的数据面前,能比like快n倍,速度不是一个数量级。
本教程操作环境:windows10系统、mysql8版本、dell g3电脑。
mysql ft是什么?
即全文索引 (fulltext)。
mysql 全文索引 (fulltext)
一、简介基本概念全文索引是为了解决需要基于相似度的查询,而不是精确数值比较。
虽然使用 like + % 也可以实现模糊匹配,但是对于大量的文本数据检索,是不可想象的。全文索引在大量的数据面前,能比 like 快 n 倍,速度不是一个数量级。
版本支持mysql 5.6 以前的版本,只有 myisam 存储引擎支持全文索引mysql 5.6 及以后的版本,myisam 和 innodb 存储引擎均支持全文索引mysql 5.7.6 中,提供了支持中文、日文和韩文(cjk)的内置全文 ngram 解析器,以及用于日文的可安装 mecab 全文解析器插件全文索引只能用于innodb或myisam表,只能为char、varchar、text列创建对于大型数据集,<span style="" quot="quot" dashed="""dashed""" yellow="""yellow""">将数据加载到没有全文索引的表中然后创建索引要比将数据加载到具有现有全文索引的表中快得多rds mysql 5.6 虽然也支持中文全文检索,但存在bug限制与缺点导致磁盘资源的大量占用。全文索引本身就是一个利用磁盘空间换取性能的方法。全文索引大的原因是,按照某种语言来进行分词全文索引创建速度慢,而且对有全文索引的各种数据修改操作也慢使用全文索引并不是对应用透明的。如果要想利用全文索引,必须修改查询语句。原有的查询语句是不可能利用全文索引的,需要改成全文索引规定的语法不区分大小写分区表不支持全文搜索由多列组合而成的全文检索的索引必须使用相同的字符集与排序规则全文索引可能存在精度问题,即全文索引找到的数据,可能和like到的不一致match()函数中的列必须与fulltext索引中定义的列完全一致,除非是在myisam表中使用in boolean mode模式的全文搜索(可在没有建立索引的列执行搜索,但速度很慢)单列分别建立全文索引时,多列模糊查询时不生效不同表的全文索引不能放在一起查询,可以两个语句中加上or二、操作全文索引2.1 配置最小搜索长度我们可以通过 sql 命令查看当前配置的最小搜索长度(分词长度):
show variables like 'ft%';
variable_namevalue
ft_boolean_syntax + -><()~*:""&|
ft_max_word_len 84
ft_min_word_len 1
ft_query_expansion_limit 20
ft_stopword_file (built-in)
全文索引的相关参数都无法进行动态修改,必须通过修改 mysql 的配置文件来完成。修改最小搜索长度的值为 1,首先打开 mysql 的配置文件 /etc/my.cnf,在 [mysqld] 的下面追加以下内容:
[mysqld]innodb_ft_min_token_size = 1# 最短的索引字符串,默认值为4ft_min_word_len = 1
配置完后重启 mysql 服务器,并修复或重建全文索引方可生效。
可使用下面的命令修复:
repair table test quick;
2.2 创建索引建表时创建全文索引create table fulltext_test ( id int(11) not null auto_increment, content text not null, tag varchar(255), primary key (id), fulltext key content_tag_fulltext(content, tag) with parser ngram) engine = innodb default charset=utf8mb4;
在已存在的表上创建全文索引create fulltext index content_fulltext on fulltext_test(content) with parser ngram;
通过 sql 语句 alter table 创建全文索引alter table fulltext_test add fulltext index content_fulltext(content) with parser ngram;
2.3 删除索引使用 drop index 删除全文索引drop index content_fulltext on fulltext_test;
通过 sql 语句 alter table 删除全文索引alter table fulltext_test drop index content_fulltext;
三、检索数据3.1 自然语言的全文检索默认情况下,或者使用 in natural language mode 修饰符时,match() 函数对文本集合执行自然语言搜索。
select * from 表名 where match(列名1,列名2) against (检索内容1 检索内容2);
检索内容不需要用逗号隔开!
自然语言搜索引擎将计算每一个文档对象和查询的相关度。这里,相关度是基于匹配的关键词的个数,以及关键词在文档中出现的次数。在整个索引中出现次数越少的词语,匹配时的相关度就越高。相反,非常常见的单词将不会被搜索,如果一个词语的在超过 50% 的记录中都出现了,那么自然语言的搜索将不会搜索这类词语。
3.2 布尔全文检索在布尔搜索中,我们可以在查询中自定义某个被搜索的词语的相关性,当编写一个布尔搜索查询时,可以通过一些前缀修饰符来定制搜索。
空(也就是默认状况),表示可选的,包含该词的顺序较高+ 表示必须包含- 表示必须排除“>” 表示出现该单词时增加相关性,查询的结果靠前“<” 表示出现该单词时降低相关性,查询的结果靠后* 表示通配符,只能接在词后面~ 允许出现该单词,但是出现时相关性为负,表示拥有该字会下降相关性,但不像「-」将之排除,只是排在较后面"" 双引号表示短语,表示要彻底相符,不可拆字效果,类同于 like '%keyword%'() 经过括号来使用字条件:+aaa +(>bbb <ccc) aaa="aaa" sql="sql" select="select" from="from" test="test" where="where" match="match" against="against" in="in" boolean="boolean" mode="mode" select="select" from="from" tommy="tommy" where="where" match="match" against="against" in="in" boolean="boolean" mode="mode" select="select" from="from" tommy="tommy" where="where" match="match" against="against">李秀琴 <练习册 <不是人>是个鬼' in boolean mode);四、测试结果测试环境:本机4核16g windows10,mysql 8.0
测试数据量:salebilldetail 表 1276万行,salebill 表 269 万行, customer 表 30 万行, goods 表 75 万行。
争对测试用的sql语句,增加了以下全文索引:
create fulltext index billno_fulltext on salebill(billno) with parser ngram;create fulltext index remarks_fulltext on salebill(remarks) with parser ngram;create fulltext index remarks_fulltext on salebilldetail(remarks) with parser ngram;create fulltext index goodsremarks_fulltext on salebilldetail(goodsremarks) with parser ngram;create fulltext index remarks_goodsremarks_fulltext on salebilldetail(remarks, goodsremarks) with parser ngram;create fulltext index custname_fulltext on customer(custname) with parser ngram;create fulltext index goodsname_fulltext on goods(goodsname) with parser ngram;create fulltext index goodscode_fulltext on goods(goodscode) with parser ngram;
测试结果,总的来说很魔幻。
为什么魔幻,看下面几个语句:
test_1-- 测试1,原始 like 查询方式,用时 0.765sselect 1 from salebilldetail d where d.tid=260434 and ((d.remarks like concat('%','葡萄','%')) or (d.goodsremarks like concat('%','葡萄','%')));
test_2-- 测试2,使用全文索引 remarks_fulltext、goodsremarks_fulltext, 用时 0.834sselect 1 from salebilldetail d where d.tid=260434 and ((match(d.remarks) against(concat('','葡萄','') in boolean mode)) or (match(d.goodsremarks) against(concat('','葡萄','')  in boolean mode)));
test_3-- 测试3,使用全文索引 remarks_goodsremarks_fulltext, 用时 0.242sselect 1 from salebilldetail d where d.tid=260434 and ((match(d.remarks,d.goodsremarks) against(concat('','葡萄','') in boolean mode)));
test_4-- 测试4,原始 like 查询方式,不过滤 tid ,用时 22.654sselect t from salebilldetail d where ((d.remarks like concat('%','葡萄','%')) or (d.goodsremarks like concat('%','葡萄','%')));
test_5-- 测试5,使用全文索引 remarks_fulltext、goodsremarks_fulltext,  不过滤 tid ,用时 24.855sselect 1 from salebilldetail d where ((match(d.remarks) against(concat('','葡萄','') in boolean mode)) or (match(d.goodsremarks) against(concat('','葡萄','')  in boolean mode)));
test_6-- 测试6,使用全文索引 remarks_goodsremarks_fulltext, 不过滤 tid ,用时 0.213sselect 1 from salebilldetail d where ((match(d.remarks,d.goodsremarks) against(concat('','葡萄','') in boolean mode)));
test_7-- 测试7,使用全文索引 remarks_goodsremarks_fulltext, 用时 0.22sselect count(1) from salebilldetail d where d.tid=260434 and  ((match(d.remarks,d.goodsremarks) against(concat('','葡萄','') in boolean mode)));
test_8-- 测试8,使用全文索引 remarks_goodsremarks_fulltext, 不过滤 tid ,用时 0.007sselect count(1) from salebilldetail d where ((match(d.remarks,d.goodsremarks) against(concat('','葡萄','') in boolean mode)));
从上面的测试语句可以看出,数据量越多,查询越简单,全文索引的效果越好。
再来看看我们的业务测试sql:
test_9-- 测试9select     i.billid    ,if(0,0,i.qty) as qty      ,if(0,0,i.goodstotal) as total              ,if(0,0,i.chktotal) as selfchktotal       ,if(0,0,i.distotal) as distotal     ,if(0,0,i.otherpay) as feetotal      ,if(0,0,ifnull(d.costtotal,0)) as costtotal      ,if(0,0,ifnull(d.maoli,0)) as maoli             ,i.billno    ,from_unixtime(i.billdate,'%y-%m-%d') as billdate /*单据日期*/    ,from_unixtime(i.createdate,'%y-%m-%d %h:%i:%s') as createdate /*制单日期*/    ,if(i.sdate=0,'',from_unixtime(i.sdate,'%y-%m-%d  %h:%i:%s')) as sdate /*过账日期*/    ,from_unixtime(i.udate,'%y-%m-%d %h:%i:%s') as udate /*最后修改时间*/    ,i.custid ,c.custname    ,i.storeid ,k.storename    ,i.empid ,e.empname    ,i.userid ,u.username    ,i.remarks                               /*单据备注*/    ,i.effect,i.settle,i.redold,i.rednew     /*单据状态*/    ,i.printtimes /* 打印次数 */    ,(case  when i.rednew=1 then 1  when i.redold=1 then 2  when i.settle=1 then 3  when i.effect=1 then 4  else 9 end) as state /*单据状态*/    ,(case  when i.rednew=1 then '红冲单'  when i.redold=1 then '已红冲'  when i.settle=1 then '已结算'  when i.effect=1 then '已过账'  else '草稿' end) as statetext    ,'' as susername /* 操作人 */    ,'' as accname /* 科目 */from salebill ileft join coursecentersale d on d.tid=i.tid and d.billid=i.billidleft join customer c on c.tid=i.tid and c.custid=i.custidleft join store k on k.tid=i.tid and k.storeid=i.storeidleft join employee e on e.tid=i.tid and e.empid=i.empidleft join user u on u.tid=i.tid and u.userid=i.useridwhere i.tid=260434 and (i.billtype = 5 or i.effect = 1)    and ('_billdate_f_'!='')    and ('_billdate_t_'!='')    and ('_sdate_f_'!='')    and ('_sdate_t_'!='')    and ('_udate_f_'!='')    and ('_udate_t_'!='')    and ('_cdate_f_'!='')    and ('_cdate_t_'!='')    and ('_billid_'!='')      /*单据id*/    and ('_custid_'!='')      /*客户id*/    and ('_storeid_'!='')     /*店仓id*/    and ('_empid_'!='')       /*业务员id*/    and ('_custstop_'!='')       /*客户是否停用*/    and (        (i.billno like concat('%','葡萄','%'))        or (i.remarks like concat('%','葡萄','%'))        or exists(select 1 from salebilldetail d where d.tid=260434 and d.billid=i.billid and ((d.remarks like concat('%','葡萄','%')) or (d.goodsremarks like concat('%','葡萄','%'))))        or exists(select 1 from customer c where c.tid=260434 and c.custid=i.custid and (c.custname like concat('%','葡萄','%')))        or exists(select 1 from goods g join salebilldetail d on d.tid=g.tid and d.goodsid=g.goodsid where d.tid=260434 and d.billid=i.billid and ((g.goodsname like concat('%','葡萄','%')) or (g.goodscode like concat('%','葡萄','%'))))    )    and i.rednew=0 /*单据列表不含红冲单*/     and i.billid not in (select billid from coursecenter_del t where t.tid=260434)    and ((i.settle=1 and i.effect=1 and i.redold=0 and i.rednew=0)) /*已结算*/order by udate desc,billno desclimit 0,100;
执行时间约 1.6 秒,使用的是 like 方式。
改成使用全文索引方式:
test_10-- 测试10select     i.billid    ,if(0,0,i.qty) as qty             ,if(0,0,i.goodstotal) as total       ,if(0,0,i.chktotal) as selfchktotal      ,if(0,0,i.distotal) as distotal     ,if(0,0,i.otherpay) as feetotal      ,if(0,0,ifnull(d.costtotal,0)) as costtotal     ,if(0,0,ifnull(d.maoli,0)) as maoli      ,i.billno    ,from_unixtime(i.billdate,'%y-%m-%d') as billdate /*单据日期*/    ,from_unixtime(i.createdate,'%y-%m-%d %h:%i:%s') as createdate /*制单日期*/    ,if(i.sdate=0,'',from_unixtime(i.sdate,'%y-%m-%d  %h:%i:%s')) as sdate /*过账日期*/    ,from_unixtime(i.udate,'%y-%m-%d %h:%i:%s') as udate /*最后修改时间*/    ,i.custid ,c.custname    ,i.storeid ,k.storename    ,i.empid ,e.empname    ,i.userid ,u.username    ,i.remarks                               /*单据备注*/    ,i.effect,i.settle,i.redold,i.rednew     /*单据状态*/    ,i.printtimes /* 打印次数 */    ,(case  when i.rednew=1 then 1  when i.redold=1 then 2  when i.settle=1 then 3  when i.effect=1 then 4  else 9 end) as state /*单据状态*/    ,(case  when i.rednew=1 then '红冲单'  when i.redold=1 then '已红冲'  when i.settle=1 then '已结算'  when i.effect=1 then '已过账'  else '草稿' end) as statetext    ,'' as susername /* 操作人 */    ,'' as accname /* 科目 */from salebill ileft join coursecentersale d on d.tid=i.tid and d.billid=i.billidleft join customer c on c.tid=i.tid and c.custid=i.custidleft join store k on k.tid=i.tid and k.storeid=i.storeidleft join employee e on e.tid=i.tid and e.empid=i.empidleft join user u on u.tid=i.tid and u.userid=i.useridwhere i.tid=260434 and (i.billtype = 5 or i.effect = 1)    and ('_billdate_f_'!='')    and ('_billdate_t_'!='')    and ('_sdate_f_'!='')    and ('_sdate_t_'!='')    and ('_udate_f_'!='')    and ('_udate_t_'!='')    and ('_cdate_f_'!='')    and ('_cdate_t_'!='')    and ('_billid_'!='')      /*单据id*/    and ('_custid_'!='')      /*客户id*/    and ('_storeid_'!='')     /*店仓id*/    and ('_empid_'!='')       /*业务员id*/    and ('_custstop_'!='')       /*客户是否停用*/    and (        (match(i.billno) against(concat('','葡萄','') in boolean mode))        or (match(i.remarks) against(concat('','葡萄','') in boolean mode))        or exists(select 1 from salebilldetail d where d.tid=260434 and d.billid=i.billid and ((match(d.remarks) against(concat('','葡萄','') in boolean mode)) or (match(d.goodsremarks) against(concat('','葡萄','')  in boolean mode))))        or exists(select 1 from customer c where c.tid=260434 and c.custid=i.custid and (match(c.custname) against(concat('','葡萄','') in boolean mode)))        or exists(select 1 from goods g join salebilldetail d on d.tid=g.tid and d.goodsid=g.goodsid where d.tid=260434 and d.billid=i.billid      and ((match(g.goodsname) against(concat('','葡萄','') in boolean mode))     or (match(g.goodscode) against(concat('','葡萄','') in boolean mode))))    )    and i.rednew=0 /*单据列表不含红冲单*/     and i.billid not in (select billid from coursecenter_del t where t.tid=260434)    and ((i.settle=1 and i.effect=1 and i.redold=0 and i.rednew=0)) /*已结算*/order by udate desc,billno desclimit 0,100;
执行时间约 1.6 秒,与使用的是 like 方式差不多。
最魔幻的地方来了,如果将上面的sql语句中(salebilldetail表使用全文索引 remarks_fulltext、goodsremarks_fulltext的地方)
exists(select 1 from salebilldetail d where d.tid=260434 and d.billid=i.billid and ((match(d.remarks) against(concat('','葡萄','') in boolean mode)) or (match(d.goodsremarks) against(concat('','葡萄','')  in boolean mode))))
test_11改成使用全文索引 remarks_goodsremarks_fulltext
-- 测试11exists(select 1 from salebilldetail d where d.tid=260434 and d.billid=i.billid and ((match(d.remarks,d.goodsremarks) against(concat('','葡萄','') in boolean mode))))
执行时间无限长(跑了半天没成功)?
经分析,在 where 子句中,一个条件子句中包含一个以上 match 时会出现这样的情况。即:
-- and 中只有一个全文检索时正常, 用时0.2秒select xxx from xxx...and ( exists(select 1 from salebilldetail d where d.tid=260434 and d.billid=i.billid and ((match(d.remarks,d.goodsremarks) against(concat('','葡萄','') in boolean mode)))))...-- 下面这样就异常了,会慢成百上千倍,用时 160 秒, 如果有更多的 match ,会更夸张的慢下去select xxx from xxx...and ( exists(select 1 from salebilldetail d where d.tid=260434 and d.billid=i.billid and ((match(d.remarks,d.goodsremarks) against(concat('','葡萄','') in boolean mode)))) or match(i.billno) against(concat('','葡萄','') in boolean mode))...
测试结果汇总:查询用时(秒)备注
test 1 0.765 原始like查询
test 2 0.834 全文索引 remarks_fulltext、goodsremarks_fulltext
test 3 0.242 全文索引 remarks_goodsremarks_fulltext
---
test 4 22.654 原始like查询,不过滤 tid
test 5 24.855 全文索引 remarks_fulltext、goodsremarks_fulltext,  不过滤 tid
test 6 0.213 全文索引 remarks_goodsremarks_fulltext, 不过滤 tid
---
test 7 0.22 全文索引 remarks_goodsremarks_fulltext, count
test 8 0.007 全文索引 remarks_goodsremarks_fulltext, 不过滤 tid, count
---
test 9 1.6 业务测试sql,原始like查询
test 10 1.6 业务测试sql,全文索引 remarks_fulltext、goodsremarks_fulltext
test 11 失败 业务测试sql,全文索引 remarks_goodsremarks_fulltext
五、mysql 版本升级因线上系统目前是 rds mysql 5.6,故简单描述升级相关问题。
group by: 在 mysql 5.7 之后,默认使用增加了限制,一些在 mysql 5.6 可执行的group by语句,在 5.7 之后会报错,可以更改新版本 mysql 的 sqlmodel
方式1:重启 mysql 后失效-- 查询 sql_modeselect @@session.sql_mode;-- 设置set global sql_mode = 'strict_trans_tables,no_zero_in_date,no_zero_date,error_for_division_by_zero,no_engine_substitution';-- 或 设置 (修改于当前会 话,关闭当前会话后失效)set session sql_mode = 'strict_trans_tables,no_zero_in_date,no_zero_date,error_for_division_by_zero,no_engine_substitution';-- 刷新flush privileges;
方式2:在配置文件中添加 sql_mode = '对应需要的模式'sql_mode 模式说明:only_full_group_by: 对于group by聚合操作,如果在select中的列,没有在group by中出现,那么这个sql是不合法的,因为列不在group by从句中no_auto_value_on_zero: 该值影响自增长列的插入。默认设置下,插入0或null代表生成下一个自增长值。如果用户希望插入的值为0,而该列又是自增长的,那么这个选项就有用了。strict_trans_tables:在该模式下,如果一个值不能插入到一个事务中,则中断当前的操作,对非事务表不做限制no_zero_in_date:在严格模式下,不允许日期和月份为零no_zero_date:设置该值,mysql数据库不允许插入零日期,插入零日期会抛出错误而不是警告error_for_division_by_zero:在insert或update过程中,如果数据被零除,则产生错误而非警告。如果未给出该模式,那么数据被零除时mysql返回nullno_auto_create_user: 禁止grant创建密码为空的用户no_engine_substitution:如果需要的存储引擎被禁用或未编译,那么抛出错误。不设置此值时,用默认的存储引擎替代,并抛出一个异常pipes_as_concat:将||视为字符串的连接操作符而非或运算符,这和oracle数据库是一样是,也和字符串的拼接函数concat想类似ansi_quotes:启用后,不能用双引号来引用字符串,因为它被解释为识别符
mysql8.0 修改了账号密码加密策略 (默认的认证插件由mysql_native_password更改为caching_sha2_password),导致一些可视化软件无法连接 mysql8.0 版本的数据库。如果需要,可以修改默认的策略或者账号密码的认证策略
方式1:配置文件中添加, 让mysql使用原密码策略 (需重启mysql服务)[mysqld]default_authentication_plugin = mysql_native_password
方式2:执行语句修改某账号密码验证策略-- 修改加密规则 alter user 'root'@'localhost' identified by 'password' password expire never; -- 更新用户密码alter user '账号'@'%' identified with mysql_native_password by '密码';-- 刷新权限flush privileges;
mysql8.0 授权用户账号语法变更,创建用户的操作已经不支持grant的同时创建用户方式,需要先创建用户再进行授权。
-- 原来的流程:mysql> grant all on *.* to 'admin'@'%' identified by 'admin';-- 新的正确流程:mysql> create user 'admin'@'%' identified by 'admin';mysql> grant all on *.* to 'admin'@'%' ;mysql> flush privileges;
数据库连接区别
jdbc 连接串修改如下(首先需要驱动使用8.0对应连接的驱动):jdbc:mysql://{ip}:{port}/{db}?characterencoding=utf8&usessl=false&servertimezone=utc// usessl  如果不配置false 项目可以正常启动但是会提示ssl问题// servertimezone=utc 必须配置【时区设置成自己对应的时区】否则项目会报错
如果时区问题还不能解决:show variables like '%time_zone%';set global time_zone='+8:00';
mysql 5.7 原生支持json类型,并引入了众多json函数
mysql 8.0 json字段的部分更新(json partial updates)
mysql 8.0 默认字符集由latin1修改为utf8mb4
mysql 8.0 正则表达式的增强,新增了4个相关函数,regexp_instr(),regexp_like(),regexp_replace(),regexp_substr()
mysql 8.0 group by语句不再隐式排序 (忽略在group by中的排序命令,如 desc, asc)
【相关推荐:mysql视频教程】
以上就是mysql ft是什么的详细内容。
该用户其它信息

VIP推荐

免费发布信息,免费发布B2B信息网站平台 - 三六零分类信息网 沪ICP备09012988号-2
企业名录