还记得数据库设计的六大范式吗?一篇文章让你完全搞懂

数据库技术
342
0
0
2022-04-11

数据库范式是为解决关系数据库中数据冗余、更新异常、插入异常、删除异常问题而引入的。简单的理解,数据库范式可以避免数据冗余,减少数据库的空间,并且减轻维护数据完整性的麻烦。

还记得数据库设计的六大范式吗?一篇文章让你完全搞懂

第一范式(1NF)

第一范式,强调属性的原子性约束,要求属性具有原子性,不可再分解。

举个例子,活动表(活动编码,活动名称,活动地址),假设这个场景中,活动地址可以细分为国家、省份、城市、市区、位置,那么就没有达到第一范式。

第二范式(2NF)

第二范式,强调记录的唯一性约束,表必须有一个主键,并且没有包含在主键中的列必须完全依赖于主键,而不能只依赖于主键的一部分。

举个例子,版本表(版本编码,版本名称,产品编码,产品名称),其中主键是(版本编码,产品编码),这个场景中,数据库设计并不符合第二范式,因为产品名称只依赖于产品编码。存在部分依赖。所以,为了使其满足第二范式,可以改造成两个表:版本表(版本编码,产品编码)和产品表(产品编码,产品名称)。

第三范式(3NF)

第三范式,强调属性冗余性的约束,即非主键列必须直接依赖于主键。

举个例子,订单表(订单编码,顾客编码,顾客名称),其中主键是(订单编码),这个场景中,顾客编码、顾客名称都完全依赖于主键,因此符合第二范式,但是顾客名称依赖于顾客编码,从而间接依赖于主键,所以不能满足第三范式。为了使其满足第三范式,可以拆分两个表:订单表(订单编码,顾客编码)和顾客表(顾客编码,顾客名称),拆分后的数据库设计,就可以完全满足第三范式的要求了。

值得注意的是,第二范式的侧重点是非主键列是否完全依赖于主键,还是依赖于主键的一部分。第三范式的侧重点是非主键列是直接依赖于主键,还是直接依赖于非主键列。

修正的第三范式(BCNF)

修正的第三范式,是防止主键的某一列会依赖于主键的其他列。

举个例子,每个管理员只能管理一个仓库,那么如果设计库存表(仓库名,管理员名,商品名,数量),主键为(仓库名,管理员名,商品名),这是满足前面三个范式的,但是仓库名和管理员名之间存在依赖关系,因此删除某一个仓库,会导致管理员也被删除,因此设计不合理。

第四范式(4NF)

当一个表中的非主属性相互独立时(3NF),这些非主属性不应该有多值。如果有多值就违反了第四范式。举个例子,有一个用户联系方式表(用户id,固定电话,移动电话),其中用户id是主键,这个满足了BCNF,但是一个用户有可能会有多个固定电话或者多个移动电话,那么这种设计就不合理,应该改为(用户id,联系方式类型,电话号码)。在实际应用中,一般不要求表满足第四范式。

还记得数据库设计的六大范式吗?一篇文章让你完全搞懂

第五范式(5NF)

第五范式是最终范式,消除了4NF中的连接依赖,第五范式有以下要求:

1. 必须满足第四范式

2.表必须可以分解为较小的表,除非那些表在逻辑上拥有与原始表相同的主键。

和第四范式不同的是,第四范式处理的是项目独立的多值情况,几多个属性的多值是相互独立的,没有关联关系,如固定电话和移动电话之间不会有任务关系。而第五范式是处理存在关联关系的冗余情况。例如下表:销售信息表(销售人员,供货商,产品),设计这么一张表,主键为(销售人员,供货商,产品),不同的供货商可以提供相同的产品,不同的销售人员,可以销售不同供货商的相同产品,因此这个设计是满足4NF的,但是这里存在一些关系冗余,可以将标拆为三个表(销售人员,供货商)(销售人员,产品)(供货商,产品)。第五范式主要就是消灭这种关系的冗余,在实际应用中,没有太多必要考虑这个。

还记得数据库设计的六大范式吗?一篇文章让你完全搞懂

反模式

范式可以避免数据冗余,减少数据库的空间,减轻维护数据完整性的麻烦。

然而,通过数据库范式化设计,将导致数据库业务涉及的表变多,并且可能需要将涉及的业务表进行多表连接查询,这样将导致性能变差,且不利于分库分表。因此,出于性能优先的考量,可能在数据库的结构中需要使用反模式的设计,即空间换取时间,采取数据冗余的方式避免表之间的关联查询。至于数据一致性问题,因为难以满足数据强一致性,一般情况下,使存储数据尽可能达到用户一致,保证系统经过一段较短的时间的自我恢复和修正,数据最终达到一致。

需要谨慎使用反模式设计数据库。一般情况下,尽可能使用范式化的数据库设计,因为范式化的数据库设计能让产品更加灵活,并且能在数据库层保持数据完整性。

有的时候,提升性能最好的方法是在同一表中保存冗余数据,如果能容许少量的脏数据,创建一张完全独立的汇总表或缓存表是非常好的方法。

另外一个比较典型的场景,出于扩展性考虑,可能会使用 BLOB 和 TEXT 类型的列存储 JSON 结构的数据,这样的好处在于可以在任何时候,将新的属性添加到这个字段中,而不需要更改表结构。但是,这个设计的缺点也比较明显,就是需要获取整个字段内容进行解码来获取指定的属性,并且无法进行索引、排序、聚合等操作