网站首页 > 精选文章 正文
Redis单点故障解决方案实践
一、网络拓扑
二、Redis的HA简明方案
1、使用工具:
keepalive服务:实现心跳功能、浮动IP设置、业务监控脚本调用
shell脚本:业务服务监控、切换master/slave以后的业务操作、服务异常情况的日志记录
2、故障类型:
Redis进程异常
服务器宕机、关机、重启
网络中断
3、切换方案
Master: A(192.168.1.101:6379)
Slave: B(192.168.1.102:6379)
浮动IP: 192.168.1.100:6379
(1)开机启动server A和B;
(2)运行A的redis进程,运行B的redis进程;
(3)运行A的keepalived进程,运行B的keepalived进程,
此时A为master,B为slave;
(4) master主机A上通过监测脚本,检测到业务异常,降级为slave
(5) slave主机B升级为master
(6) 切换为slave后的原master主机A执行“slaveof 192.168.1.102 6379”,成为当前主机B的slave
(7) 切换为master后的原slave主机B执行“slaveof no one”,成为master主机
4、思考及注意
(1)当master切换为slave以后,如果master恢复正常,是否重新切换为master?
目前选择“非抢占式”,即保持现状,不再进行切换。
(2)当redis进行master和backup切换以后,redis-X-Y-Z的机器将全量获取“新浮动VIP主机”的redis数据。
三、测试环境及用例
测试环境:
A:192.168.1.101
B:192.168.1.102
VIP:192.168.1.100
C:192.168.1.103
用例:
(1)测试AB
启动A、B;
运行A的redis,运行B的redis;
运行A的keepalived,运行B的keepalived;
此时浮动VIP被设置在A上。
Kill掉A上的redis服务;
此时浮动 VIP被设置在B上。
运行A的redis;
此时浮动VIP依然被设置在B上。
Kill掉B上的redis服务;
此时浮动VIP被设置在A上。
(2)测试AB
启动A、B;
运行A的redis,运行B的redis;
运行A的keepalived,运行B的keepalived;
此时浮动VIP被设置在A上。
重启A;
此时浮动 VIP被设置在B上。
A启动完成;
此时浮动VIP依然被设置在B上。
重启B;
此时浮动VIP被设置在A上。
(3)测试AB
启动A、B;
运行A的redis,运行B的redis;
运行A的keepalived,运行B的keepalived;
此时浮动VIP被设置在A上。
Kill掉A上的keepalived服务;
此时浮动 VIP被设置在B上。
运行A的keepalived;
此时浮动VIP依然被设置在B上。
Kill掉B上的keepalived服务;
此时浮动VIP被设置在A上。
四、相关配置
(1)keepavlied配置文件
master端:
global_defs {
notification_email {
xxxx@xxxx.com
}
notification_email_from os@xxxx.com
smtp_server mail.xxxx.com
smtp_connect_timeout 30
router_id os_82
}
vrrp_script chk_redis {
script "/xxxx/scripts/redis_check.sh"
interval 2
}
vrrp_instance VI_82 {
state BACKUP (将优先级高的主机也设置为BACKUP)
interface eth0
virtual_router_id 52
priority 101
advert_int 1
nopreempt (配合上面的state BACKUP,可以实现非抢占)
smtp_alert
authentication {
auth_type PASS
auth_pass redis
}
track_script {
chk_redis
}
virtual_ipaddress {
192.168.1.100
}
notify_master /xxxx/scripts/redis_master.sh
notify_backup /xxxx/scripts/redis_backup.sh
notify_fault /xxxx/scripts/redis_fault.sh
notify_stop /xxxx/scripts/redis_stop.sh
}
Backup端:
global_defs {
notification_email {
xxxx@xxxx.com
}
notification_email_from os @xxxx.com
smtp_server mail.xxxx.com
smtp_connect_timeout 30
router_id os_83
}
vrrp_script chk_redis {
script "/xxxx/scripts/redis_check.sh"
interval 2
}
vrrp_instance VI_83 {
state BACKUP
interface eth0
virtual_router_id 52
priority 100
advert_int 1
smtp_alert
authentication {
auth_type PASS
auth_pass redis
}
track_script {
chk_redis
}
virtual_ipaddress {
192.168.1.100
}
notify_master /xxxx/scripts/redis_master.sh
notify_backup /xxxx/scripts/redis_backup.sh
notify_fault /xxxx/scripts/redis_fault.sh
notify_stop /xxxx/scripts/redis_stop.sh
}
(2)shell脚本及调用时机
redis_check.sh:检测系统中redis-server服务是否正常
redis_master.sh:状态改变为BACKUP后执行的脚本
redis_backup.sh:状态改变为BACKUP后执行的脚本
redis_fault.sh:状态改变为FAULT后执行的脚本
redis_stop.sh: VRRP心跳停止后后执行的脚本
(3)脚本实例
1、Redis_check.sh
#!/bin/bash
ALIVE=`/xxxx/redis-3.0.4/src/redis-cli PING`
if [ "$ALIVE" == "PONG" ]; then
echo $ALIVE
exit 0
else
echo $ALIVE
exit 1
fi
2、redis_master.sh
#!/bin/bash
REDISCLI="/xxxx/redis-3.0.4/src/redis-cli"
LOGFILE="/xxxx/log/keepalived-redis-state.log"
TIME=`date +%Y-%m-%d" "%H:%m:%S`
echo "$TIME [Being master....]" >> $LOGFILE 2>&1
sleep 1
$REDISCLI SLAVEOF NO ONE >> $LOGFILE 2>&1
echo "$TIME [Run cmd "SLAVEOF NO ONE" OK]" >> $LOGFILE 2>&1
3、redis_backup.sh
Master端:
#!/bin/bash
REDISCLI="/xxxx/redis-3.0.4/src/redis-cli"
LOGFILE="/xxxx/log/keepalived-redis-state.log"
TIME=`date +%Y-%m-%d" "%H:%m:%S`
echo "$TIME [Being slave....]" >> $LOGFILE 2>&1
sleep 2
$REDISCLI SLAVEOF 192.168.1.101/102 6379 >> $LOGFILE 2>&1
echo "$TIME [Run cmd "SLAVEOF 192.168.1.101/102 6379" OK]" >> $LOGFILE 2>&1
1
4、redis_fault.sh
#!/bin/bash
LOGFILE="/xxxx/log/keepalived-redis-state.log"
TIME=`date +%Y-%m-%d" "%H:%m:%S`
echo "$TIME [fault]" >> $LOGFILE 2>&1
5、redis_stop.sh
#!/bin/bash
LOGFILE="/xxxx/log/keepalived-redis-state.log"
TIME=`date +%Y-%m-%d" "%H:%m:%S`
echo "$TIME [stop]" >> $LOGFILE 2>&1
6、redis.conf增加的配置
Redis的客户端ping服务端的时间间隔
repl-ping-slave-period 9
Redis的客户端和服务端无连接的超时时间
repl-timeout 10
五、其他注意事项
对于192.168.1.101/102如果出现浮动IP消失的异常情况,
可以手动设置 ip addr add dev eth1 192.168.1.100;
删除浮动IP的操作,ip addr del dev eth1 192.168.1.100
5、修改redis配置
增加socket连接断开超时配置,需要的redis机器包括:192.168.1.104-6结点。
配置如下:repl-ping-slave-period 9、repl-timeout 10
设置命令:
CONFIG GET repl-ping-slave-period
查询设置:
CONFIG GET repl-ping-slave-period
1) "repl-ping-slave-period"
2) "10"
猜你喜欢
- 2025-02-04 Redis系列之(二):Redis主从同步,读写分离
- 2025-02-04 redis主从搭建、发现阻塞、内存管理优化(四)
- 2025-02-04 redis配置密码【永久及临时配置】
- 2025-02-04 Redis集群配置(redis集群配置文件详解)
- 2025-02-04 Redis 为什么要引入 Pipeline机制?十分钟带你掌握!
- 2025-02-04 Spring Security结合Redis实现缓存功能
- 2025-02-04 Redis 7.x哨兵模式如何实现?基于Spring Boot 3.x版
- 2025-02-04 redis在linux上的部署(linux redis部署)
- 2025-02-04 我们一起进大厂——Redis实战之哨兵模式
- 2025-02-04 面试官:介绍一下 Redis 三种集群模式
- 最近发表
- 标签列表
-
- 向日葵无法连接服务器 (32)
- git.exe (33)
- vscode更新 (34)
- dev c (33)
- git ignore命令 (32)
- gitlab提交代码步骤 (37)
- java update (36)
- vue debug (34)
- vue blur (32)
- vscode导入vue项目 (33)
- vue chart (32)
- vue cms (32)
- 大雅数据库 (34)
- 技术迭代 (37)
- 同一局域网 (33)
- github拒绝连接 (33)
- vscode php插件 (32)
- vue注释快捷键 (32)
- linux ssr (33)
- 微端服务器 (35)
- 导航猫 (32)
- 获取当前时间年月日 (33)
- stp软件 (33)
- http下载文件 (33)
- linux bt下载 (33)