说到集群,生产环境中很多服务都会进行集群部署,那么 mongodb 的集群都有哪些知识点需要掌握呢
mongodb 集群 分为 主从集群 和分片集群 ,先从主从集群开始
为什么需要集群?
为了保障服务的高可用
我们可以知道,如果我们部署单点 mongodb 服务,那么是非常容易出现单点故障的,若这台 mongodb 服务不可用了,那岂不是整个业务都要 over 了?
当我们部署多个 mongodb 的时候,有相互关系的,这叫集群,根据集群是否有状态分为:
- 有状态集群
指集群里面的服务都需要存放数据
无状态的集群,服务自身不存储数据,集群中的服务任意一个被客户端访问得到的结果都是一样的,与实际访问到哪一个服务没有关系
因为这些服务不存储数据,数据都是去找一个公共的组件获取
- 无状态集群
指集群里面的服务不需要存放数据
有状态的集群,即自身是存储数据的,那么在集群中,就会出现数据一致性的问题
我们来看看 CAP 原则:
指的是在一个分布式系统中的三个特性
- C (Consistency)
数据一致性
- A (Availability)
可用性
- P (Partition tolerance)
分区容忍性
CAP 原则中,最多只能同时实现两点,不可能三者兼顾 , 所有集群都需要考虑上三个特性
主从集群
主从集群是由一组 mongod 维护相同数据集的实例,一个副本集包含如下节点:
- 多个数据承载节点
- 一个仲裁器节点,这个仲裁器节点是可选的
当主节点不可用,则选举符合要求的次节点为主节点,如果副本集成员数为偶数,添加仲裁器来进行选举主节点
仲裁器 是 mongod 进程,但不维护数据集,通过响应其他副本集成员的心跳和选举请求来维护集群中的仲裁机制
在数据承载节点中,只有一个成员被视为主要节点,而其他节点则被视为次节点
主从复制集群提供冗余并提高数据可用性是这样做的:
- 使用不同数据库服务器上的多个数据副本,复制可提供一定程度的容错能力
- 这样做是为了防止丢失单个数据库服务器
那么就会有这样的问题,主从是如何同步数据?
主从集群的同步机制是什么?
mongo db 里面的同步机制有如下几点:
- oplog
- 心跳机制
- 选举机制
- 副本回滚
oplog 是什么?
oplog 其实就是 mongodb local 数据库里面的一个集合
local.oplog.rs
集合,固定集合的大小默认是硬盘的 5% ,默认最大也不会超过 50 个 G
oplog 上面会存放整个 mongodb 的所有写操作
oplog 的初始化是如何做的
若一个集群中,有 1个 primary(mongodb 1) 和 2 个 secondary(mongodb 2,mongodb 3) ,已经存在一段时间了,产生了一些 oplog 信息了,这个时候,又接上来了一个 secondary(mongodb 4)
此时 mongodb 4 会去读取 mongodb 3 和 mongodb 2 的副本,看谁是最新的,就同步谁的 oplog 数据
如果默认的源节点网络故障或者其他原因无法同步数据了,则这个新的 secondary 就会直接找 主节点进行 oplog 的同步
指定 oplog 初始化方式
当然我们在 mongodb 里面也是可以直接设置最新的 secondary 找谁同步数据,通过如下指令
db.adminCommand(replSetSyncFrom:"ip:port")
心跳机制
心跳机制,底层实现一般都是都是 发 TCP 包来检测连通性,当然工作中也有自己应用包来检测业务是否正常的
mongodb 里面,心跳机制默认时间是 2 s,超过这个时间,则会被认为是服务不可用
欢迎点赞,关注,收藏
朋友们,你的支持和鼓励,是我坚持分享,提高质量的动力