企业项目管理、ORK、研发管理与敏捷开发工具平台

网站首页 > 精选文章 正文

Redis单点故障解决方案实践(redis点击量)

wudianyun 2025-02-04 16:29:20 精选文章 24 ℃

Redis单点故障解决方案实践

一、网络拓扑

二、Redis的HA简明方案

1、使用工具:

keepalive服务:实现心跳功能、浮动IP设置、业务监控脚本调用

shell脚本:业务服务监控、切换master/slave以后的业务操作、服务异常情况的日志记录

2、故障类型:

Redis进程异常

服务器宕机、关机、重启

网络中断

3、切换方案

Master: A(192.168.1.101:6379)

Slave: B(192.168.1.102:6379)

浮动IP: 192.168.1.100:6379

(1)开机启动server A和B;

(2)运行A的redis进程,运行B的redis进程;

(3)运行A的keepalived进程,运行B的keepalived进程,

此时A为master,B为slave;

(4) master主机A上通过监测脚本,检测到业务异常,降级为slave

(5) slave主机B升级为master

(6) 切换为slave后的原master主机A执行“slaveof 192.168.1.102 6379”,成为当前主机B的slave

(7) 切换为master后的原slave主机B执行“slaveof no one”,成为master主机

4、思考及注意

(1)当master切换为slave以后,如果master恢复正常,是否重新切换为master?

目前选择“非抢占式”,即保持现状,不再进行切换。

(2)当redis进行master和backup切换以后,redis-X-Y-Z的机器将全量获取“新浮动VIP主机”的redis数据。

三、测试环境及用例

测试环境:

A:192.168.1.101

B:192.168.1.102

VIP:192.168.1.100

C:192.168.1.103

用例:

(1)测试AB

启动A、B;

运行A的redis,运行B的redis;

运行A的keepalived,运行B的keepalived;

此时浮动VIP被设置在A上。

Kill掉A上的redis服务;

此时浮动 VIP被设置在B上。

运行A的redis;

此时浮动VIP依然被设置在B上。

Kill掉B上的redis服务;

此时浮动VIP被设置在A上。

(2)测试AB

启动A、B;

运行A的redis,运行B的redis;

运行A的keepalived,运行B的keepalived;

此时浮动VIP被设置在A上。

重启A;

此时浮动 VIP被设置在B上。

A启动完成;

此时浮动VIP依然被设置在B上。

重启B;

此时浮动VIP被设置在A上。

(3)测试AB

启动A、B;

运行A的redis,运行B的redis;

运行A的keepalived,运行B的keepalived;

此时浮动VIP被设置在A上。

Kill掉A上的keepalived服务;

此时浮动 VIP被设置在B上。

运行A的keepalived;

此时浮动VIP依然被设置在B上。

Kill掉B上的keepalived服务;

此时浮动VIP被设置在A上。

四、相关配置

(1)keepavlied配置文件

master端:

global_defs {

notification_email {

xxxx@xxxx.com

}

notification_email_from os@xxxx.com

smtp_server mail.xxxx.com

smtp_connect_timeout 30

router_id os_82

}

vrrp_script chk_redis {

script "/xxxx/scripts/redis_check.sh"

interval 2

}

vrrp_instance VI_82 {

state BACKUP (将优先级高的主机也设置为BACKUP)

interface eth0

virtual_router_id 52

priority 101

advert_int 1

nopreempt (配合上面的state BACKUP,可以实现非抢占)

smtp_alert

authentication {

auth_type PASS

auth_pass redis

}

track_script {

chk_redis

}

virtual_ipaddress {

192.168.1.100

}

notify_master /xxxx/scripts/redis_master.sh

notify_backup /xxxx/scripts/redis_backup.sh

notify_fault /xxxx/scripts/redis_fault.sh

notify_stop /xxxx/scripts/redis_stop.sh

}

Backup端:

global_defs {

notification_email {

xxxx@xxxx.com

}

notification_email_from os @xxxx.com

smtp_server mail.xxxx.com

smtp_connect_timeout 30

router_id os_83

}

vrrp_script chk_redis {

script "/xxxx/scripts/redis_check.sh"

interval 2

}

vrrp_instance VI_83 {

state BACKUP

interface eth0

virtual_router_id 52

priority 100

advert_int 1

smtp_alert

authentication {

auth_type PASS

auth_pass redis

}

track_script {

chk_redis

}

virtual_ipaddress {

192.168.1.100

}

notify_master /xxxx/scripts/redis_master.sh

notify_backup /xxxx/scripts/redis_backup.sh

notify_fault /xxxx/scripts/redis_fault.sh

notify_stop /xxxx/scripts/redis_stop.sh

}

(2)shell脚本及调用时机

redis_check.sh检测系统中redis-server服务是否正常

redis_master.sh状态改变为BACKUP后执行的脚本

redis_backup.sh状态改变为BACKUP后执行的脚本

redis_fault.sh状态改变为FAULT后执行的脚本

redis_stop.sh: VRRP心跳停止后后执行的脚本

(3)脚本实例

1、Redis_check.sh

#!/bin/bash

ALIVE=`/xxxx/redis-3.0.4/src/redis-cli PING`

if [ "$ALIVE" == "PONG" ]; then

echo $ALIVE

exit 0

else

echo $ALIVE

exit 1

fi

2、redis_master.sh

#!/bin/bash

REDISCLI="/xxxx/redis-3.0.4/src/redis-cli"

LOGFILE="/xxxx/log/keepalived-redis-state.log"

TIME=`date +%Y-%m-%d" "%H:%m:%S`

echo "$TIME [Being master....]" >> $LOGFILE 2>&1

sleep 1

$REDISCLI SLAVEOF NO ONE >> $LOGFILE 2>&1

echo "$TIME [Run cmd "SLAVEOF NO ONE" OK]" >> $LOGFILE 2>&1

3、redis_backup.sh

Master端:

#!/bin/bash

REDISCLI="/xxxx/redis-3.0.4/src/redis-cli"

LOGFILE="/xxxx/log/keepalived-redis-state.log"

TIME=`date +%Y-%m-%d" "%H:%m:%S`

echo "$TIME [Being slave....]" >> $LOGFILE 2>&1

sleep 2

$REDISCLI SLAVEOF 192.168.1.101/102 6379 >> $LOGFILE 2>&1

echo "$TIME [Run cmd "SLAVEOF 192.168.1.101/102 6379" OK]" >> $LOGFILE 2>&1

1

4、redis_fault.sh

#!/bin/bash

LOGFILE="/xxxx/log/keepalived-redis-state.log"

TIME=`date +%Y-%m-%d" "%H:%m:%S`

echo "$TIME [fault]" >> $LOGFILE 2>&1

5、redis_stop.sh

#!/bin/bash

LOGFILE="/xxxx/log/keepalived-redis-state.log"

TIME=`date +%Y-%m-%d" "%H:%m:%S`

echo "$TIME [stop]" >> $LOGFILE 2>&1

6、redis.conf增加的配置

Redis的客户端ping服务端的时间间隔

repl-ping-slave-period 9

Redis的客户端和服务端无连接的超时时间

repl-timeout 10

五、其他注意事项

对于192.168.1.101/102如果出现浮动IP消失的异常情况,

可以手动设置 ip addr add dev eth1 192.168.1.100;

删除浮动IP的操作,ip addr del dev eth1 192.168.1.100

5、修改redis配置

增加socket连接断开超时配置,需要的redis机器包括:192.168.1.104-6结点。

配置如下:repl-ping-slave-period 9、repl-timeout 10

设置命令:

CONFIG GET repl-ping-slave-period

查询设置:

CONFIG GET repl-ping-slave-period

1) "repl-ping-slave-period"

2) "10"

Tags:

最近发表
标签列表