上一篇聊了Redis的主从复制以及实现原理,下面会在复制的基础上来说说Redis的高可用方案:哨兵机制
哨兵机制
什么是哨兵机制
在主从复制的模式下,主服务器宕机后,从服务器是不能自动转为主服务器的,只能手动进行故障转移
而哨兵机制(Sentinel)就是Redis的高可用解决方案,由一个或多个Sentinel实例组成的Sentinel系统用来管理主服务器以及连接的所有从服务器。可以实现故障发现、故障自动转移、配置中心和客户端通知
- 监控(Monitoring):Sentinel会不断地检查你的主服务器和从服务器是否运作正常
- 提醒(Notification):当被监控的某个Redis服务器出现问题时,Sentinel可以通过API向管理员或者其他应用程序发送通知
- 自动故障迁移(Automatic failover):当一个主服务器不能正常工作时, Sentinel会开始一次自动故障迁移操作,它会将失效主服务器的其中一个从服务器升级为新的主服务器,并让失效主服务器的其他从服务器改为复制新的主服务器;当客户端试图连接失效的主服务器时,集群也会向客户端返回新主服务器的地址,使得集群可以使用新主服务器代替失效服务器
看了上图,我们可以理解哨兵机制就是在复制基础上的一套监管系统,能及时的进行故障转移。那么就先了解下,Redis是如何故障判定和故障转移的
故障判定
故障判定,也就是Sentinel在做的任务,当一个Sentinel启动后会定期的去执行以下的任务
- 每个Sentinel进程会以每秒一次的频率向已知的主服务器、从服务器以及其他的Sentinel实例发送一个
PING
命令 - 每个实例(instance)距离最后一次有效回复
PING
命令的时间超过down-after-milliseconds
选项所指定的值,那么该实例会被标记为主观下线。一个有效回复可以是:+PONG
、-LOADING
或者-MASTERDOWN
- 如果一个
Master
主服务器被标记为主观下线,那么监视该主服务器的所有的Sentinel会以每秒一次的频率确认主服务器的确是进入主线下线状态 - 如果有足够数量的Sentinel(至少达到配置文件指定的数量)在指定时间范围内确认一个
Master
主服务器为主观下线状态,那么该主服务器被标记为客观下线 - 一般情况下,每个Sentinel会每10秒一次的频率向已知的主服务器和从服务器发送
INFO
命令,当一个主服务器被标记为客观下线时,发送INFO
命令的频率会改为每秒一次 - 没有足够数量的Sentinel同意主服务器下线,主服务器的客观下线状态会被移除;当主服务器重新向Sentinel的
PING
命令返回有效回复,主服务器的主观下线状态就会被移除
主观下线(Subjectively Down,SDOWN)指单个Sentinel实例对服务器做出下线判断
客观下线(Objectively Down,ODOWN)指多个Sentinel实例对服务器做出SDOWN判断, 并且通过 SENTINEL
is-master-down-by-addr
命令互相交流之后,,得出的服务器下线判断
搭建哨兵实例
准备
我这里是准备了3个虚拟机,1主2从的Redis服务器和3个哨兵实例。官网上是推荐至少部署3个Sentinel实例保证健壮性,具体的地址端口如下
服务 | ip | port |
---|---|---|
Redis(master) | 192.168.249.20 | 6379 |
Redis | 192.168.249.21 | 6379 |
Redis | 192.168.249.22 | 6379 |
Sentinel | 192.168.249.20 | 26379 |
Sentinel | 192.168.249.21 | 26379 |
Sentinel | 192.168.249.22 | 26379 |
1主2从的Redis服务的配置如下,修改一下redis.conf
文件
1 | # 设置为后台运行 |
在从服务器上添加主服务器的地址信息
1 | # 设置主服务器的地址 |
3个哨兵的配置都是一样的,可以从Redis的安装目录拷贝一份sentinel.conf
,修改内容如下,主要是配置下主服务器的地址
1 | # 设置为后台运行 |
Sentinel可用通过Redis实例的发布/订阅功能自动发现同样在监控主服务器的其他Sentinel,以及可以通过主服务器获取其他从服务器的信息,所以我们只需配置主服务器的地址即可
启动
启动顺序分别是:主服务器,从服务器,然后是3个哨兵进程
启动Redis服务
1 | ./redis-server ../redis.conf |
Sentinel其实也是一个Redis服务,可以看做一个特殊模式的Redis服务,启动的命令有两种
1 | ./redis-server ../sentinel.conf --sentinel |
这两种方式启动哨兵的效果都是一样的,在启动运行时必须要使用配置文件,因为系统需要这个文件来保存当前状态,以便重启时加载
查看主机状态
我们可以用客户端连接哨兵,使用sentinel master <master-name>
查看其监视的主服务器的状态
1 | $ ./redis-cli -h 192.168.249.20 -p 26379 |
我们看到关于主服务器的一些监控信息
num-slaves
为从服务器的数量;num-other-sentinels
其他哨兵的数量;flags
标记为master,当主机掉线了,会变为s_down或o_down
另外,想查看其他从服务器和其他哨兵的状态,可以用以下的命令
1 | sentinel slaves <master-name> |
故障转移
我们可以手动模拟一下,当主服务器挂了,故障故障转移情况。
想要获取当前主服务器的地址信息,客户端可以使用sentinel get-master-addr-by-name <master-name>
命令
1 | 192.168.249.20:26379> sentinel get-master-addr-by-name mymaster |
可以看到当前的主服务地址为192.168.249.20
,这是我们手动关闭该服务,或者使用以下命令让服务器睡眠40秒
1 | $ ./redis-cli -h 192.168.249.20 -p 6379 |
这个时候我们再次查看主服务的地址时,应该是可以看到不同信息
1 | 192.168.249.20:26379> sentinel get-master-addr-by-name mymaster |