Keepalived 高可用#

[TOC]

HTTP Keep-Alive#

名称	用途	层级	作用
HTTP Keep-Alive	保持 HTTP 长连接	应用层（HTTP）	避免反复建立/断开 TCP 连接,提升网页加载速度
Keepalived	实现服务器高可用（HA）	网络层	通过 VIP 漂移实现故障自动切换,保障服务不中断

Note

✅ 正确理解：Keep-Alive ≠ Keepalived

❗它们名字像,但 完全不是一回事

就像“苹果（水果）”和“Apple（公司）”——只是碰巧同名

1
✅什么是 HTTP Keep-Alive？
2
在HTTP/1.1中,默认启用了长连接（会话保持）,也就是常说的 Keep-Alive
3
📌 传统短连接（HTTP/1.0 默认）
4
  请求一次,断开一次
5
  特别消耗资源,所以我们现在不用1.0
6
📌 长连接（HTTP/1.1 默认）：
7
  握上手后,再也不断开了
8
  请求一次响应一次
9
=======================================
10
💡 Nginx如何控制 Keep-Alive？
11
[root@lb01 conf.d]# grep keepalive /etc/nginx/nginx.conf
12
    keepalive_timeout  65;
13
# 长连接的超时时间
14
# 我只等你65秒,如果65秒没有新的请求过来,我网站给你4次挥手,主动断开连接
15
# 如果改为0,就是短连接,请求一次断开一次
16
=======================================
17
keepalive_requests 100;
18
# Nginx默认值就是100、可以不用单独设置
19
# 即使没超时,一个连接最多处理 100 个请求后也会关闭（防资源耗尽）
20
🔸 绝大多数情况下,保持默认 100 是最安全、最平衡的选择

Keepalived概述#

🌟 一、什么是 Keepalived？

它是一个开源的高可用（HA）解决方案,主要用于：

实现 故障自动切换
提供 虚拟 IP 漂移 能力
常用于 负载均衡器或关键服务 的高可用部署

💡 举个生活例子：就像你家有两台路由器,主路由器坏了,备用路由器 自动接管网络,你手机/电脑完全无感——这就是“高可用”

🧩 二、核心原理：VRRP 协议

Keepalived 基于 VRRP 协议工作：

💡 虚拟路由冗余协议 ,主要用于解决 ==单点故障== 问题

多台服务器组成一个 VRRP 组
其中一台是 MASTER（主）,其余是 BACKUP（备）
所有成员共享一个 虚拟 IP（VIP）（如 192.168.1.100）
和一个 虚拟 MAC 地址（格式通常为 00:00:5E:00:01:XX ）
正常时, 只有 MASTER 拥有 VIP 和虚拟 MAC
所有 BACKUP（备） 成员都处于 监听状态

持续接收并监控来自 MASTER（主） 的 VRRP 报文

默认间隔通常是 1 秒
只要 BACKUP 能正常收到 MASTER 的 VRRP 报文

就认为 MASTER 仍然存活,不会发起抢占
当 MASTER 宕机（如主机断电、网络中断等导致 VRRP 报文停止）
优先级最高的 BACKUP 会自动接管 VIP 和虚拟 MAC

成为新的 MASTER,继续提供服务
并 开始向外发送自己的 VRRP 报文,宣告自己是新主
用户始终访问同一个 VIP,无需感知后端哪台设备在工作

❗ 重要限制🔴： 仅判断主机是否存活,不判断服务是否正常

==比如：==

LB01 的 Nginx 进程崩溃了,但操作系统还在运行
VRRP 仍认为 LB01 是主,但 Nginx 返回 502 或无响应！

✅ ==Keepalived（带健康检查） + VRRP = 高可用负载均衡解决方案==

故障类型	原生 VRRP	Keepalived + 自定义健康检查
主服务器宕机（如关机、断电）	✅ VIP 漂移	✅ VIP 漂移
主服务器网络中断（无法发 VRRP 报文）	✅ VIP 漂移	✅ VIP 漂移
Nginx/服务进程崩溃,但系统仍运行	❌ 不会漂移	✅ 会漂移（如果配置了健康检查）

架构图#

高可用安装配置#

1
'环境准备'
2
作用         IP            角色
3
node1      10.0.0.5      Master
4
node2      10.0.0.6      Backup
5
VIP          10.0.0.3      虚拟
6
=====================================
7
（1）备一台LB02 10.0.0.6
8

9
（2）配置nginx官网仓库
10
[root@lb02 ~]# scp 10.0.0.5:/etc/yum.repos.d/nginx.repo /etc/yum.repos.d/
11
Authorized users only. All activities may be monitored and reported.
12
root@10.0.0.5's password: '
13
nginx.repo     100%  113    87.5KB/s   00:00
14

15
（3）安装nginx服务
16
[root@lb02 ~]# yum -y install nginx
17
.....
18
Complete!
19

20
（4）将lb01的配置文件同步到lb02
21
[root@lb02 ~]# rsync  -avz 10.0.0.5:/etc/nginx/ /etc/nginx/
22
# 增量拷贝
23
[root@lb02 ~]# nginx -t
24
nginx: [emerg] unknown directive "check_status" in /etc/nginx/conf.d/admin.conf:17
25
nginx: configuration file /etc/nginx/nginx.conf test failed
26
[root@lb02 ~]# cd /etc/nginx/conf.d/
27
[root@lb02 conf.d]# rm -rf admin.conf
28
# 将之前编译的check检查模块配置文件删除
29
[root@lb02 conf.d]# nginx -t
30
nginx: the configuration file /etc/nginx/nginx.conf syntax is ok
31
nginx: configuration file /etc/nginx/nginx.conf test is successful
32

33
（5）启动nginx
34
[root@lb02 conf.d]# systemctl enable nginx
35
.../usr/lib/systemd/system/nginx.service.
36
[root@lb02 conf.d]# systemctl start nginx
37

38
（6）测试访问lb02
39
windows的hosts解析到10.0.0.6
40
10.0.0.6 wp.kpyun.com

1
'主服务器 10.0.0.5 部署keepalived'
2
[root@lb01 ~]# ip a sh eth0
3
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc fq_codel state UP group default qlen 1000
4
    link/ether 00:0c:29:87:ce:27 brd ff:ff:ff:ff:ff:ff
5
    inet 10.0.0.5/24 brd 10.0.0.255 scope global noprefixroute eth0
6
       valid_lft forever preferred_lft forever
7
    inet6 fe80::20c:29ff:fe87:ce27/64 scope link
8
       valid_lft forever preferred_lft forever
9
[root@lb01 ~]# yum -y install keepalived
10
[root@lb01 ~]# vim /etc/keepalived/keepalived.conf
11
# 配置keepalived
12
global_defs {                   #全局配置
13
    router_id lb01              #标识身份->名称
14
}
15

16
vrrp_instance VI_1 {
17
    state MASTER                #标识角色状态
18
    interface eth0              #网卡绑定接口
19
    virtual_router_id 50        #组的标识ID
20
    priority 150                #优先级
21
    advert_int 1                #监测间隔时间(秒)
22

23
    authentication {            #组内成员之间的认证
24
        auth_type PASS          #认证方式
25
        auth_pass 1111          #认证密码
26
    }
27

28
    virtual_ipaddress {
29
        10.0.0.3                #虚拟的VIP地址
30
    }
31
}
32
# IP 地址的格式应该是没有子网掩码（如 /24）的
33
'因为这里指定的是虚拟 IP 地址,而不是一个网络段'
34
[root@lb01 ~]# systemctl enable keepalived
35
.../usr/lib/systemd/system/keepalived.service.
36
[root@lb01 ~]# systemctl start keepalived
37
# 启动keepalived
38
[root@lb01 ~]# ip a sh eth0
39
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc fq_codel state UP group default qlen 1000
40
    link/ether 00:0c:29:87:ce:27 brd ff:ff:ff:ff:ff:ff
41
    'eth0MAC地址：00:0c:29:87:ce:27'
42
    inet 10.0.0.5/24 brd 10.0.0.255 scope global noprefixroute eth0
43
       valid_lft forever preferred_lft forever
44
    inet 10.0.0.3/32 scope global eth0
45
    '多了一个IP地址！虚拟IP'
46
       valid_lft forever preferred_lft forever
47
    inet6 fe80::20c:29ff:fe87:ce27/64 scope link
48
       valid_lft forever preferred_lft forever
49
=================================================
50
C:\Users\LENOVO>arp -a
51
 'Windows主机'
52
接口: 10.0.0.1 --- 0x19
53
Internet 地址    物理地址              类型
54
10.0.0.5       00-0c-29-87-ce-27    动态
55
10.0.0.6        00-0c-29-00-9c-58    动态
56
# 现在显示的是eth0的mac地址！
57
C:\Users\LENOVO>ping 10.0.0.3
58
# ping一下这个虚拟IP
59
正在 Ping 10.0.0.3 具有 32 字节的数据:
60
来自 10.0.0.3 的回复: 字节=32 时间=1ms TTL=64
61
来自 10.0.0.3 的回复: 字节=32 时间=1ms TTL=64
62
C:\Users\LENOVO>arp -a
63
'再次查看arp地址映射'
64
Internet 地址    物理地址              类型
65
10.0.0.3    00-0c-29-87-ce-27    动态
66
10.0.0.5       00-0c-29-87-ce-27    动态
67
10.0.0.6        00-0c-29-00-9c-58    动态
68
# 这个虚拟IP的Mac地址是eth0的Mac地址
69
# 它绑定在eth0上,与10.0.0.5共用一个mac地址
70
=================================================
71
说明 Keepalived 没有正确使用 VRRP 虚拟 MAC,而是用本机物理 MAC 响应了 VIP 的 ARP 请求
72
'这通常是因为配置问题或内核行为导致的“非标准模式”'
73
🔍 为什么会这样？
74
🧩 根本原因：Linux 内核的 ARP 响应策略
75
这意味着：
76
即使你通过 Keepalived 添加了 VIP 10.0.0.3/32
77
Linux 内核看到 “我有这个 IP”,就会用 eth0 的物理 MAC（比如 00:0c:29:87:ce:27）去响应 ARP
78
'VRRP 虚拟 MAC 根本没被用上！'
79
❌ 这破坏了 VRRP 的标准行为,导致主备切换时可能因 MAC 变化引发短暂中断
80
=================================================
81
✅ 如何让 Keepalived 使用 真正的虚拟 MAC？
82
需要修改 Linux 内核参数
83
①让系统允许 VIP 绑定到虚拟 MAC
84
②并且只用虚拟 MAC 响应 ARP
85

86
步骤 1：在 LB01 和 LB02 上修改内核参数（/etc/sysctl.conf）
87
net.ipv4.conf.all.arp_ignore = 1
88
# 忽略对非本机 IP 的 ARP 请求（更严格）
89
net.ipv4.conf.all.arp_announce = 2
90
# 优先使用目标 IP 所在接口的 MAC（避免用物理 MAC 回应 VIP）
91
应用配置：sysctl -p
92
# 打印输出内核参数配置！
93

94
步骤 2：在 Keepalived 配置中,显式启用虚拟 MAC
95
# 虽然默认开启,但可强调
96
use_vmac on          # ← 这行很重要！
97
# 启用虚拟 MAC
98
🔔 use_vmac on 会让 Keepalived 创建一个虚拟网络接口
99
=================================================
100
[root@lb01 ~]# vim /etc/sysctl.conf
101
[root@lb01 ~]# sysctl -p |tail -2
102
net.ipv4.conf.all.arp_ignore = 1
103
net.ipv4.conf.all.arp_announce = 2
104
[root@lb01 ~]# grep use_vmac /etc/keepalived/keepalived.conf
105
    use_vmac on
106
[root@lb01 ~]# systemctl restart keepalived
107
[root@lb01 ~]# ip a
108
...
109
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc fq_codel state UP group default qlen 1000
110
    link/ether 00:0c:29:87:ce:27 brd ff:ff:ff:ff:ff:ff
111
    inet 10.0.0.5/24 brd 10.0.0.255 scope global noprefixroute eth0
112
       valid_lft forever preferred_lft forever
113
    inet6 fe80::20c:29ff:fe87:ce27/64 scope link
114
       valid_lft forever preferred_lft forever
115
'这个eth0没有什么变化！'
116
5: on@eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
117
    link/ether 00:00:5e:00:01:32 brd ff:ff:ff:ff:ff:ff
118
    inet 10.0.0.3/32 scope global on
119
       valid_lft forever preferred_lft forever
120
'多出了这个虚拟IP,并且有它自己的Mac地址！'
121
# 00:00:5e:00:01:32
122
=================================================
123
C:\Users\LENOVO>ping 10.0.0.3
124
# 我们再来ping一下！
125
正在 Ping 10.0.0.3 具有 32 字节的数据:
126
来自 10.0.0.3 的回复: 字节=32 时间<1ms TTL=64
127
来自 10.0.0.3 的回复: 字节=32 时间<1ms TTL=64
128
C:\Users\LENOVO>arp -a
129
Internet 地址    物理地址              类型
130
10.0.0.3    00-00-5e-00-01-32    动态
131
10.0.0.5       00-0c-29-87-ce-27    动态
132
10.0.0.6        00-0c-29-00-9c-58    动态
133
# 这次虚拟IP是它的虚拟的Mac地址！
134
# 00:00:5e:00:01:32
135
=================================================
136
windows hosts解析到10.0.0.3测试
137
10.0.0.3 wp.kpyun.com

1
'备用服务器 10.0.0.6 部署keepalived'
2
# lb02部署keepalived服务
3
[root@lb02 ~]# yum -y install keepalived
4
[root@lb02 ~]# vim /etc/keepalived/keepalived.conf
5
# 配置keepalived
6
global_defs {
7
    router_id lb02              #标识身份->名称
8
}
9

10
vrrp_instance VI_1 {
11
    state BACKUP                #标识角色状态
12
    interface eth0
13
    virtual_router_id 50
14
    priority 100                #优先级
15
    advert_int 1
16

17
    authentication {
18
        auth_type PASS
19
        auth_pass 1111
20
    }
21

22
    use_vmac on        # ← 这行很重要！
23
    # 启用虚拟 MAC
24
    virtual_ipaddress {
25
        10.0.0.3
26
    }
27
}
28
[root@lb02 ~]# vim /etc/sysctl.conf
29
[root@lb02 ~]# sysctl -p |tail -2
30
net.ipv4.conf.all.arp_ignore = 1
31
net.ipv4.conf.all.arp_announce = 2
32
[root@lb02 ~]# systemctl enable keepalived
33
.../usr/lib/systemd/system/keepalived.service.
34
[root@lb02 ~]# systemctl start keepalived
35
# 启动keepalived
36
[root@lb02 ~]# ip a
37
2: eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc fq_codel state UP group default qlen 1000
38
    link/ether 00:0c:29:00:9c:58 brd ff:ff:ff:ff:ff:ff
39
    inet 10.0.0.6/24 brd 10.0.0.255 scope global noprefixroute eth0
40
       valid_lft forever preferred_lft forever
41
    inet6 fe80::20c:29ff:fe00:9c58/64 scope link
42
       valid_lft forever preferred_lft forever
43
'eth0没雨什么变化！'
44
4: on@eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
45
    link/ether 00:00:5e:00:01:32 brd ff:ff:ff:ff:ff:ff
46
# 多出来一张网卡！有虚拟的Mac地址！但是没有虚拟IP地址
47
# 因为Master在用！
48
=================================================
49
'测试'
50
（1）模拟master宕机
51
[root@lb01 ~]# poweroff
52
Connection closing...Socket close.
53
[root@lb02 ~]# ip a
54
'lb02'
55
4: on@eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
56
    link/ether 00:00:5e:00:01:32 brd ff:ff:ff:ff:ff:ff
57
    inet 10.0.0.3/32 scope global on
58
       valid_lft forever preferred_lft forever
59
'出现了IP地址！'
60
# VIP自动漂移到backup服务器
61

62
（2）测试wp是否正常访问
63
wp.kpyun.com

1
（3）查看windows的arp表是否更新
2
C:\Users\LENOVO>ping 10.0.0.3
3
正在 Ping 10.0.0.3 具有 32 字节的数据:
4
来自 10.0.0.3 的回复: 字节=32 时间<1ms TTL=64
5
来自 10.0.0.3 的回复: 字节=32 时间<1ms TTL=64
6
C:\Users\LENOVO>arp -a
7
Internet 地址    物理地址              类型
8
10.0.0.3    00-00-5e-00-01-32    动态
9
10.0.0.5       00-0c-29-87-ce-27    动态
10
10.0.0.6        00-0c-29-00-9c-58    动态
11
'依旧是这个虚拟IP和虚拟Mac地址'
12

13
（4）恢复lb01,是否抢占？
14
[root@lb02 ~]# ip a sh on
15
4: on@eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
16
    link/ether 00:00:5e:00:01:32 brd ff:ff:ff:ff:ff:ff
17
# lb02(Backup)再次失去ip地址！
18
[root@lb01 ~]# ip a sh on
19
4: on@eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
20
    link/ether 00:00:5e:00:01:32 brd ff:ff:ff:ff:ff:ff
21
    inet 10.0.0.3/32 scope global on
22
       valid_lft forever preferred_lft forever
23
# 原来的Master抢占回虚拟IP地址！
24
'默认抢占！且Master的优先级高'

当 MASTER 宕机（如主机断电、网络中断等导致 VRRP 报文停止）

优先级最高的 BACKUP 会自动接管 VIP 和虚拟 MAC

成为新的 MASTER,继续提供服务

并 开始向外发送自己的 VRRP 报文,宣告自己是新主

VIP抢占#

✅ 正确的核心思想：

是否发生 VIP 抢占,取决于两个因素：

priority（优先级）

preempt（抢占模式）

是否允许 高优先级节点“抢回”MASTER 角色

🔧 关键概念说明：

优先级（Priority）

VRRP 中每台设备配置一个 priority（范围 1~254,默认 100）
数值越大,优先级越高
MASTER 是当前组内 优先级最高且存活 的节点

⚠️ 注意：如果两台设备 priority 相同,IP 地址更大的那台会成为 MASTER

实验下来 —> 往往和==启动顺序==有关系

后启动的会被任务新加入的节点 <— 非抢占

抢占模式

默认开启抢占（preempt）
- 当原 MASTER 恢复后,若其优先级 ≥ 当前 MASTER,就会 立即抢回 VIP
可通过配置 关闭抢占,实现“谁先上谁就一直当主”,即使原主恢复也不抢

1
state 只是一个“建议初始状态”,并不是强制锁定角色
2
📌 官方文档和社区最佳实践普遍建议：不要写 state,让 Keepalived 自动协商
3
'如果是抢占式,最好写上state,Master给一个较高的优先级！'
4
# 非抢占式,就不给state了！
5
======================================
6
✅ 场景 1：希望主恢复后自动抢回 VIP（常见）
7
priority 150  # LB01（主）
8
priority 100  # LB02（备）
9
# 默认 preempt,无需写
10
→ 主恢复 → 抢回 VIP
11
======================================
12
✅ 场景 2：希望避免频繁切换
13
# （如主备性能相当,不希望主恢复时再切一次）
14
priority 100
15
# lb01和lb02的优先级相同！
16
⚠️ MASTER 和启动顺序有关
17
'谁先启动,一般来说他就是master' <-- 同时启动,IP地址大的为master
18
nopreempt     # 关闭抢占
19
→ 后续即使对方恢复也不切换（真正非抢占）
20
======================================
21
📌 关键机制：nopreempt 只在已有 VRRP 状态上下文时才生效！
22
🔍 如何复现出'非抢占模式'？？？
23
✅ 只能是先stop、再start --》Keepalived
24
# 关机重启,和restart都不行！不能复现！
25
'以上两种情况！都会认为自己是“全新加入”的节点'
26
======================================
27

28
（1）lb01
29
[root@lb01 ~]# vim /etc/keepalived/keepalived.conf
30
[root@lb01 ~]# egrep 'priority|nopreempt' /etc/keepalived/keepalived.conf
31
    priority 100                #优先级
32
    nopreempt
33
'这里把state也删掉了！'
34
[root@lb01 ~]# systemctl restart keepalived
35

36
（2）lb02
37
[root@lb02 ~]#  vim /etc/keepalived/keepalived.conf
38
[root@lb02 ~]# egrep 'priority|nopreempt' /etc/keepalived/keepalived.conf
39
    priority 100                #优先级
40
    nopreempt
41
'这里把state也删掉了！'
42
[root@lb02 ~]# systemctl restart keepalived
43

44
（3）查看虚拟IP在哪台机器上！
45
'这里两边可以多重启几次！！！'
46
# 恢复初始状态！
47
[root@lb01 ~]# ip a sh on
48
5: on@eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
49
    link/ether 00:00:5e:00:01:32 brd ff:ff:ff:ff:ff:ff
50
[root@lb02 ~]# ip a sh on
51
4: on@eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
52
    link/ether 00:00:5e:00:01:32 brd ff:ff:ff:ff:ff:ff
53
    inet 10.0.0.3/32 scope global on
54
       valid_lft forever preferred_lft forever
55
'在lb02上面,优先级相同,IP地址大的为Master'
56

57
（4）测试非抢占！
58
[root@lb02 ~]# systemctl stop keepalived
59
[root@lb01 ~]# ip a sh on
60
4: on@eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
61
    link/ether 00:00:5e:00:01:32 brd ff:ff:ff:ff:ff:ff
62
    inet 10.0.0.3/32 scope global on
63
'VIP来到了lb01'
64
=== 启动lb02的 keepalived ===
65
[root@lb02 ~]# systemctl restart keepalived
66
[root@lb02 ~]# ip a sh on
67
5: on@eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
68
    link/ether 00:00:5e:00:01:32 brd ff:ff:ff:ff:ff:ff
69
# 没有VIP
70
[root@lb01 ~]# ip a sh on
71
4: on@eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
72
    link/ether 00:00:5e:00:01:32 brd ff:ff:ff:ff:ff:ff
73
    inet 10.0.0.3/32 scope global on
74
       valid_lft forever preferred_lft forever
75
'非抢占,在lb01上面！'
76
======================================
77
'第二种测试非抢占！'
78
# 让他们的优先级不同！
79
[root@lb01 ~]# vim /etc/keepalived/keepalived.conf
80
[root@lb01 ~]# egrep 'priority|nopreempt' /etc/keepalived/keepalived.conf
81
    priority 150                #优先级
82
    nopreempt
83
# 把lb01的优先级调高！
84
# lb02不需要调整优先级！
85
systemctl restart keepalived
86
'两边都重启启动一下！'
87
[root@lb01 ~]# ip a sh on
88
6: on@eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
89
    link/ether 00:00:5e:00:01:32 brd ff:ff:ff:ff:ff:ff
90
    inet 10.0.0.3/32 scope global on
91
       valid_lft forever preferred_lft forever
92
# 肯定是lb01的主,它的优先级高！
93
[root@lb01 ~]# systemctl stop keepalived
94
# 关闭keepalived
95
[root@lb02 ~]# ip a sh on
96
5: on@eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
97
    link/ether 00:00:5e:00:01:32 brd ff:ff:ff:ff:ff:ff
98
    inet 10.0.0.3/32 scope global on
99
       valid_lft forever preferred_lft forever
100
'此时VIP就会漂到lb02'
101
🧪 启动lb01的keepalived
102
'是start并非❗restart'
103
[root@lb01 ~]# systemctl start keepalived
104
[root@lb01 ~]# ip a sh on
105
7: on@eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
106
    link/ether 00:00:5e:00:01:32 brd ff:ff:ff:ff:ff:ff
107
👉 VIP 并没有漂回来,即使它的优先级更高！
108
✅ 非抢占！
109
[root@lb02 ~]# ip a sh on
110
5: on@eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
111
    link/ether 00:00:5e:00:01:32 brd ff:ff:ff:ff:ff:ff
112
    inet 10.0.0.3/32 scope global on
113
       valid_lft forever preferred_lft forever
114
'依旧在lb02上面！'
115
======================================
116
现在肯定能够正常访问网页
117
🐴我们试着关闭lb02的Nginx服务看看会怎么样？？
118
'直接挂掉了！VIP并没有漂移！'
119
# 后续需要通过脚本进行检测Nginx服务的状态才行！

脑裂#

脑裂是高可用集群（如 Keepalived）中一个非常危险的问题

指主备节点之间因 通信中断 ,彼此无法感知对方状态
从而都以为自己是“主”节点 ,同时对外提供服务

常见原因#

双方开启了防火墙

Keepalived 默认使用 **VRRP 协议 **不是 TCP/UDP,而是 IP 层协议
如果防火墙未放行 VRRP,会导致心跳包被丢弃
解决方法：

1
# iptables 示例
2
iptables -A INPUT -p vrrp -j ACCEPT
3
iptables -A OUTPUT -p vrrp -j ACCEPT
4

5
# firewalld 示例
6
firewall-cmd --permanent --add-protocol=vrrp
7
firewall-cmd --reload

网卡问题 / 网卡名写错

配置文件中指定的 interface eth0 实际不存在

解决方法：

使用 ip a 确认真实网卡名
在配置中使用正确的 interface

网络设备问题（交换机、路由器等）

中间网络设备可能丢弃组播/广播包（VRRP 默认使用 224.0.0.18 组播地址）

解决方法：

确保交换机允许 VRRP 组播流量

网线问题

物理链路故障（如网线松动、损坏）直接导致心跳中断

检测与处理#

1
'大致流程'
2
写一个脚本,放在备份服务器
3
  1）如果lb01和lb02同时出现VIP（虚拟IP）时
4
  # 说明发生脑裂
5
  2）立即 kill 自己的keepalived
6
  3）把脚本放在定时任务中！
7
======================================
8
（1）恢复抢占式
9
[root@lb01 ~]# egrep 'priority' /etc/keepalived/keepalived.conf
10
    priority 150                #优先级
11
[root@lb02 ~]# egrep 'priority' /etc/keepalived/keepalived.conf
12
    priority 100                #优先级
13
# lb01的优先级高！lb02的优先级低！
14
修改配置文件,重启服务
15
# 可以多重启几次！
16
[root@lb01 ~]# ip a sh on
17
5: on@eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
18
    link/ether 00:00:5e:00:01:32 brd ff:ff:ff:ff:ff:ff
19
    inet 10.0.0.3/32 scope global on
20
       valid_lft forever preferred_lft forever
21
[root@lb02 ~]# ip a sh on
22
6: on@eth0: <BROADCAST,MULTICAST,UP,LOWER_UP> mtu 1500 qdisc noqueue state UP group default qlen 1000
23
    link/ether 00:00:5e:00:01:32 brd ff:ff:ff:ff:ff:ff
24
# VIP在lb01这里！
25

26
（2）复现脑裂
27
[root@lb02 ~]# systemctl start firewalld
28
# lb02开启防火墙后,收不到Master的包！
29
# 认为自己是老大
30
'这个时候,出现脑裂,两台机器都有VIP'
31
[root@lb01 ~]# ip a | grep 10.0.0.3
32
    inet 10.0.0.3/32 scope global on
33
[root@lb02 ~]# ip a | grep 10.0.0.3
34
    inet 10.0.0.3/32 scope global on
35

36
（3）脚本准备
37
备用服务器得知道Master是否有VIP
38
1)先做免密登录
39
[root@lb02 ~]# ssh-keygen -t rsa -b 4096 -f /root/.ssh/id_rsa_test -N ''
40
# 备用服务器生成密钥对
41
Generating public/private rsa key pair.
42
Your identification has been saved in /root/.ssh/id_rsa_test
43
Your public key has been saved in /root/.ssh/id_rsa_test.pub
44
The key fingerprint is:
45
SHA256:TtwMdRFqEslN5Q0ak8iccWV//QGPpRC9DqCe0wJeaX4 root@lb02
46
The key's randomart image is:'
47
+---[RSA 4096]----+
48
|       +oB**@+ . |
49
|        B=oO.=* .|
50
|        = = .o+oo|
51
|     . * * . . .o|
52
|    . * S o o   .|
53
|     . O E   .   |
54
|        =        |
55
|                 |
56
|                 |
57
+----[SHA256]-----+
58
[root@lb02 ~]# ssh-copy-id 10.0.0.5
59
[root@lb02 ~]# ssh -i /root/.ssh/id_rsa_test 10.0.0.5
60
# 但需要指定私钥才行！
61
[root@lb02 ~]# grep '^IdentityFile' /etc/ssh/ssh_config
62
IdentityFile ~/.ssh/id_rsa_test
63
# 改一下配置文件！
64
[root@lb02 ~]# ssh 10.0.0.5
65

66
Authorized users only. All activities may be monitored and reported.
67
                                 |\    /|
68
                              ___| \,,/_/
69
                           ---__/ \/    \
70
                          __--/     (D)  \
71
# 成功免密登录,但还有需要优化的地方！！
72
[root@lb01 ~]# > /etc/issue
73
[root@lb01 ~]# > /etc/issue.net
74
'清空登录前的提示信息'
75
[root@lb01 ~]# > /etc/motd
76
# 优化掉小马...
77
[root@lb02 ~]# ssh 10.0.0.5 "ip a | grep 10.0.0.3 | wc -l"
78
1
79
# 过滤出了这个VIP
80
--------------- 判断上一条命令是否成功-----------
81
方法1.使用$? 结果为0则成功 非0失败
82
[root@web01 ~]# [ 1 -eq 1 ]
83
# 用来判断是否相等！
84
[root@web01 ~]# echo $?
85
0
86
# 执行成功返回0
87
[root@web01 ~]# [ 1 -eq 1 ] && echo ok
88
ok
89
# && 前面执行成功,则输出OK
90
[root@web01 ~]# [ 1 -eq 10 ] && echo ok
91
# 不成功则不输出！
92
-----------------------------------
93
[root@lb02 ~]# cd /server/scripts/
94
[root@lb02 scripts]# vim check_vip.sh
95
lb01=`ssh 10.0.0.5 "ip a" |grep 10.0.0.3|wc -l`
96
lb02=`ip a|grep 10.0.0.3|wc -l`
97
[ $lb01 -eq $lb02 ] && systemctl stop keepalived
98
# 双方肯定有一方有这个VIP
99
# 不可能是0:0
100
1:0 # 不暂停！
101
0:1 # 不暂停！
102
1:1
103
☝出现脑裂、杀死备份的keepalived
104
"[ $lb01 -eq 1 ] "
105
# 写成这样可以吗？
106
❌️即使lb02为0（没有脑裂）正常冗余备份
107
也会杀死lb02的keepalived
108
相当于只有lb01运行了keepalived
109
# 那就没有冗余了
110
[root@lb01 ~]# ip a|grep 10.0.0.3
111
    inet 10.0.0.3/32 scope global on
112
[root@lb02 scripts]# ip a|grep 10.0.0.3
113
    inet 10.0.0.3/32 scope global on
114
'出现脑裂！'
115
[root@lb02 scripts]# sh check_vip.sh
116
[root@lb02 scripts]# ip a|grep 10.0.0.3
117
# 执行脚本后,lb02没有了VIP
118
'后续放在定时任务里面每分钟执行一次！'

Nginx挂掉#

1
# 写一个nginx检查脚本、如果nginx不存在则杀死keepalived
2
# 我们可以使用if判断、配合尝试拉起Nginx！
3
[root@lb01 ~]# ps -C nginx
4
# 可检查Nginx是否存活！
5
    PID TTY          TIME CMD
6
    991 ?        00:00:00 nginx
7
    993 ?        00:00:00 nginx
8
[root@lb01 ~]# ps -C nginx --no-header
9
# 去掉第一行的信息！
10
    991 ?        00:00:00 nginx
11
    993 ?        00:00:00 nginx
12
[root@lb01 ~]# ps -C nginx --no-header|wc -l
13
2
14
[root@lb01 ~]# systemctl stop nginx
15
[root@lb01 ~]# ps -C nginx --no-header|wc -l
16
0
17
# 关闭Nginx后,就没有它的进程了！
18
======================================
19
[root@lb01 ~]# cat check_web.sh
20
#!/bin/sh
21
NG=`ps -C nginx --no-header|wc -l`
22
if [ $NG -eq 0 ]
23
then
24
    systemctl restart nginx
25
    # 如果nginx不存在则尝试重启nginx
26
    sleep 1
27
    # 等待1秒
28
    NG=`ps -C nginx --no-header|wc -l`
29
    # 再重新检查nginx是否存在
30
        if [ $NG -eq 0 ]
31
        then
32
        # 如果$NG变量为0说明nginx还是没有启动、只能杀死keepalived
33
        systemctl stop keepalived
34
        # 关闭lb01的keepalived后,lb02接管！
35
        fi
36
fi
37
[root@lb01 scripts]# chmod +x check_web.sh
38
# 给脚本执行权限
39
[root@lb01 scripts]# ll check_web.sh
40
-rwxr-xr-x 1 root root 419 Mar 22 20:58 check_web.sh
41
[root@lb01 scripts]# ./check_web.sh
42
[root@lb01 scripts]# ip a | grep 10.0.0.3
43
    inet 10.0.0.3/32 scope global on
44
# 因为现在Nginx能起来,所以VIP没有漂移
45
[root@lb01 scripts]# systemctl stop nginx
46
'停止Nginx后,VIP没有漂移,业务瘫痪'

1
[root@lb01 scripts]# ./check_web.sh
2
# 执行脚本后刷新页面
3
# Nginx被拉起来了！业务恢复！
4
'让Nginx拉不起来！'
5
[root@lb01 scripts]# grep user /etc/nginx/nginx.conf | head -1
6
user  nginx
7
'少个;分号'
8
# 错误的修改配置文件！
9
[root@lb01 scripts]# systemctl stop nginx
10
# 先关闭它
11
[root@lb01 scripts]# systemctl start nginx
12
Job for nginx.service failed because ...
13
# 尝试重启失败！
14
[root@lb01 scripts]# ip a|grep 10.0.0.3
15
    inet 10.0.0.3/32 scope global on
16
# 现在是启动这keepalived
17
[root@lb01 scripts]# ./check_web.sh
18
Job for nginx.service failed ...
19
[root@lb01 scripts]# ip a|grep 10.0.0.3
20
# 已经没有VIP了！
21
[root@lb01 scripts]# systemctl is-active keepalived
22
inactive
23
# lb01的keepalived已被关闭！
24
[root@lb02 scripts]# ip a|grep 10.0.0.3
25
    inet 10.0.0.3/32 scope global on
26
# 现在VIP已经漂到了lb02上！
27
'即使lb01的Nginx挂了,他可以实现VIP漂移！'
28
======================================
29
[root@lb01 scripts]# pwd
30
/server/scripts
31
# 将脚本集成进keepalived
32
[root@lb01 ~]# vim /etc/keepalived/keepalived.conf
33
global_defs {                   #全局配置
34
    router_id lb01              #标识身份->名称
35
}
36

37
✅vrrp_script check_web {
38
    script "/server/scripts/check_web.sh"    # 脚本的位置
39
    interval 5      # 检测执行脚本时间
40
    # 时间间隔一定要大于我们脚本执行的时间⌚️
41
}✅
42

43
vrrp_instance VI_1 {
44
    state MASTER
45
    interface eth0              #网卡绑定接口
46
    virtual_router_id 50        #组的标识ID
47
    priority 150                #优先级
48
    advert_int 1                #监测间隔时间(秒)
49

50
    authentication {            #组内成员之间的认证
51
        auth_type PASS          #认证方式
52
        auth_pass 1111          #认证密码
53
    }
54
   use_vmac on
55
    virtual_ipaddress {
56
        10.0.0.3                #虚拟的VIP地址
57
    }
58
    ✅track_script {
59
       check_web    # 调用check_web
60
     }✅
61
}
62
[root@lb01 ~]# systemctl restart keepalived
63
[root@lb01 ~]# ss -lntup | grep nginx
64
tcp LISTEN 0  128 0.0.0.0:443 users:(("nginx"...
65
[root@lb01 ~]# systemctl stop nginx
66
# 手动关闭！
67
[root@lb01 ~]# ss -lntup | grep nginx
68
[root@lb01 ~]# ss -lntup | grep nginx
69
[root@lb01 ~]# ss -lntup | grep nginx
70
...0.0.0.0:80   0.0.0.0:*   users:(("nginx"...
71
# 一会就起来了！
72
[root@lb01 scripts]# grep user /etc/nginx/nginx.conf | head -1
73
user  nginx
74
'少个;分号'
75
[root@lb01 scripts]# systemctl stop nginx
76
# 先关闭它
77
[root@lb01 ~]# systemctl is-active keepalived
78
inactive
79
# 自动关闭keepalived
80
[root@lb02 scripts]# systemctl is-active keepalived
81
active
82
[root@lb02 scripts]# ip a|grep 10.0.0.3
83
    inet 10.0.0.3/32 scope global on
84
# VIP漂到web02
85
'把Nginx错误的配置改回来'
86
[root@lb01 ~]# systemctl start keepalived
87
# 手动启动keepalived
88
[root@lb01 ~]# ss -lntup | grep nginx
89
...0.0.0.0:80   0.0.0.0:*   users:(("nginx"...
90
# Nginx就自动起来了！
91
[root@lb01 ~]# ip a|grep 10.0.0.3
92
    inet 10.0.0.3/32 scope global on
93
# VIP又漂回来了！

音乐

音乐

Keepalived 高可用#

HTTP Keep-Alive#

Keepalived概述#

架构图#

高可用安装配置#

VIP抢占#

脑裂#

常见原因#

检测与处理#

Nginx挂掉#

文章分享

文章目录