为满足业务连续性及系统高可用性要求,某用户部署了四套高可用环境,共计8台虚拟机。整体部署架构分为两类基础设施平台:
●2套环境部署于华为FusionCompute(FC)虚拟化平台
●套环境部署于华为云Stack(HCS)私有云平台
在HCS平台高可用环境上线过程中,发现以下关键网络配置问题,影响数据库流复制功能的正常运行:
2.1问题描述
PCS(Pacemaker/Corosync)集群状态正常,节点间通信、资源管理及日志记录均无异常。但PostgreSQL主从节点之间的流复制始终失败,应用通过VIP连接数据库亦不可达。
经排查确认,PCS在配置流复制时会自动创建一个虚拟IP地址(VIP) 作为数据库服务入口。该VIP由集群动态绑定至主节点的操作系统网卡。
然而,在HCS云平台的网络架构下,所有对外可通信的IP地址必须在云平台层面显式注册(如绑定弹性IP、配置安全组及端口策略等)。本次部署中,仅为主机操作系统IP完成了云平台网络资源配置,未对VIP进行相应配置,导致VIP在网络层面无法被路由或访问。
2.2问题影响
●PCS集群本身状态正常,各节点间心跳通信、资源监控、日志记录均无异常;
●PostgreSQL主从节点之间的WAL日志传输(流复制)因无法通过VIP建立连接而持续失败;
●应用程序若通过VIP连接数据库将遭遇连接超时或拒绝,高可用切换机制虽可触发,但服务无法真正恢复。
HCS云平台与传统虚拟化环境(如FC)不同,HCS采用基于SDN的网络管控机制,未在平台注册的IP(包括操作系统动态添加的VIP)默认无法参与三层通信。
4.1立即修复
●完成VIP弹性IP的申请与绑定;
●完成配置后,将重新启用PCS VIP流复制,并进行完整的故障切换测试;
4.2流程优化
●在《高可用平台部署Checklist》中新增“云平台VIP网络注册”专项检查项;
●补充自动化部署脚本,在部署完成后自动探测VIP是否可在网络层ping通、端口是否可达;
●将“云环境VIP有效性验证”纳入上线前必检作业内容。
错误信息