数据量和要求
- 数据量:
- 单表一千万条记录以上
- 要求:
- 单条sql查询时间不超过1秒
优化技巧
先把每一条心得记录在这里,后面会进行实验对其一一验证。
- 查询数据总条数时,使用max(id)而不是count(*)进行总量计数。
- 当然,前提是id是从1开始自增长,并且没有行被删除过。
- 对于常用的查询字段建立 索引 。
- 索引的速度优势显而易见。未建立索引时,全表查询是线性的。
- 使用limit避免全表检索。
- 有的查询明知道结果只会有一条,使用limit 1。如果查询结果需要分页显示,那么不妨使用limit,多次查询。
- limit的 偏移量 较大时,先用索引进行限制
- 当limit较大时,例如select * from users limit 5000000,1;,在搜索之前会先进行500万的偏移,相当于进行了一半的遍历,需要根据实际情况进行优化。
- 使用正确的数据类型
- 比如phone我们常常可能会存储为 CHAR (11),那么在查询时需要使用 字符串 类型,而非数字。(尽管 Mysql 会对其转义,但这依旧会增加查询时间)
- 对于无索引的查询条件,将能够过滤最多记录的where条件放在最后。
- 如果phone = ‘10000000’和create_time = ‘2018-11-05 03:22:56’都是查询条件,而phone = ‘10000000’能够过滤更多记录,就将其写在最右边。
- select * from users where create_time = ‘2018-11-05 03:22:56’ and phone = ‘10000000’;
- 同一字段的where条件,使用in而不是or
- or的效率是接近于O(n),而in的效率是O(Log n)
实验准备
- mysql版本:5.7.23
- mysql版本
建表
建立一个很常见的users表
CREATE TABLE `homestead`.`users` ( `id` INT() NOT NULL AUTO_INCREMENT, `name` VARCHAR (45) NOT NULL DEFAULT '用户名', `phone` CHAR(11) NOT NULL, `status` TINYINT(1) NOT NULL DEFAULT '0', `create_time` TIMESTAMP NOT NULL DEFAULT CURRENT_TIMESTAMP,
PRIMARY KEY (`id`));
插入测试数据
为了直观感受速度,先写一个存储过程,插入10000000(一千万)条记录到表中。
CREATE DEFINER=`homestead`@`%` PROCEDURE `create_user`()BEGINDECLARE i INT;START TRANSACTION;SET i=;
WHILE i<= DO
INSERT INTO `homestead`.`users`(`name`, `phone`) VALUES ('测试用户', i); SET i=i+;END WHILE;COMMIT;END
通过call create_user();调用存储过程,机器上花了两分多钟。
执行存储过程
实验过程
1. 查询数据总条数
常见的查询方式是直接使用count函数,但是在数据量过大时,速度不够快。
select count(*) from table;
通过count(id),count(*),count(1)三种方式计算,速度相差不大,都不够快
通过count()函数查询
通常在表设计之初,自增量id通常从1开始增长,并且每一行数据都不应该被直接delete,所以id的最大值就是总条数,因此也可以直接查询id的最大值。
select max(id) from table;
通过id计算总量
比较之下,速度得到了极大的提高。
2. 常用字段建立索引
mysql对于 主键会自动创建索引 ,在建立了索引的字段上进行查询速度会变得非常快。
例如,我们对id(有索引)和phone(无索引)分别进行一次查询,比较他们的速度。
有无索引对比
id建立了索引,甚至不需要0.01秒就能查询出来。而phone因为没有建立索引,花费了3秒的时间。由此可见索引对于查询速度的影响极大。
3. 使用limit,避免全表索引
避免全表查询能够大幅提高查询速度。有的时候我们明知道记录可能只有一条,那么就通过limit 1进行限制。mysql在执行时, 一旦找到符合条件的记录,达到了limit就将停止检索,立即返回。
limit对比
4. 小插曲:无索引下的全表遍历方式
在前面的尝试过程中,我们似乎发现, id越小的行,总能越快查询到,而id较大的行,速度更慢 。由此我们猜测,mysql在无索引的字段上进行查询时,是根据主键顺序遍历的。例如下面的时间比较:
查询时间线性增长
可以发现,时间跟随id变化,越来越久,而在id达到最大值时,和全表检索的时间相差无几。
最大id和全表检索对比
5. 使用正确的数据类型
对于数字的字符串匹配,mysql会自动进行转换而不会报错,但这依旧会增加查询时间。数据表users中的phone字段,我们是以char(11)存储的,那么在查询时应该严格使用字符串。下面这个对比可以看出查询的时间:不当的数据类型导致查询时间变长。
使用正确的数据类型
6. 将过滤更多字段的where条件写在语句的最后
对于没有建立索引的多个where条件,mysql的执行顺序是从右到左执行。
满足phone = ‘10000000’的记录只有一条,而满足create_time = ‘2018-11-05 03:22:56’的却有很多,因此phone = ‘10000000’能够过滤更多记录,应该将其写在最右边。
select * from users where create_time = ‘2018-11-05 03:22:56’ and phone = ‘10000000’;
image.png
对于建立了索引的条件,mysql会自动进行优化,优先查询具有索引的字段。
例如select * from users where id = 10000000 and phone = ‘10000000’ and create_time = ‘2018-11-05 03:22:56’这条语句,即使id=10000000写在了最左边,但查询时依旧最先进行检索,所以语句执行时间不到1ms。
建立了索引的字段不论顺序先后,都优先查询
7. 同一字段的where条件,使用in而不是or
例如要依据同一字段查询多条记录,应当使用in而不是or。or的复杂度更高,耗时更长。