移动视频~融合通信~可视指挥调度平台服务器集群机制
集群技术主要可分为三种类型:负载均衡集群、高可用集群和高性能计算集
群[21-22] 。负载均衡集群旨在分散系统负载,通过将请求或任务分配到多个后端
服务器,提高整体性能和可靠性,广泛应用于 web 服务和大规模在线服务[23] 。
高可用集群则致力于最小化系统宕机时间,通常包含活跃节点和备用节点,通过
持续监控和快速故障转移来保证服务的持续可用性,常见于需 24/7 运行的关键
业务系统[24] 。而高性能计算集群专注于提供强大的计算能力,由多台高性能计
算机通过高速网络互联,协同处理大规模并行计算任务,在科学研究、气象预报
等复杂计算领域发挥重要作用。
双机热备是一种广泛应用于确保重要服务持续运行的高可用性解决方案。从
广义上讲,它指两台服务器相互备份并执行相同服务;狭义上,它涉及一台主
服务器和一台备用服务器,通过心跳机制实时监控,在主服务器故障时自动切
换[26] 。这种机制有效解决了主服务器故障时的服务中断问题,通常需要专业的
集群软件或双机软件来实现。
双机热备的实现主要有三种方式:基于共享存储的方式、全冗余方式和复制
方式。基于共享存储的方式是业内最常用的方法,两台服务器共用一个存储设备
(通常是磁盘阵列),数据集中存储。这种方式切换迅速,维护相对简单,但存在
单点故障风险,且硬件成本较高[27] 。全冗余方式使用两台存储设备,每台服务
器连接两个存储,数据同时写入两处。它提供了最高级别的数据安全性和可用
性,支持更大的数据吞吐量,但硬件成本最高,配置和管理也较为复杂[28] 。复
制方式则将数据存储在各服务器本地,通过软件实时同步。这种方式不需要额外
的共享存储设备,成本较低,部署灵活,但对网络传输的质量和带宽要求较高,
可能不适合数据吞吐量大的系统。本文采用基于复制方式的双机热备方案,这一选择是基于系统架构特点和
实际需求的综合考虑。系统的数据架构呈现多元化特征:实时监控数据存储于独
立部署的 Prometheus 时序数据库(Time Series Database,TSDB)中,关键业务
数据则位于已建立的高可用 Doris 数据仓库集群内。在此架构下,实际参与双机
热备和故障转移的仅限于存储系统辅助功能所生成的结构化数据,这部分数据
通过 MySQL 数据库管理。鉴于该部分数据的吞吐量较小,采用 MySQL 的主从
同步机制即可有效确保数据一致性,无需引入更复杂的同步策略
Prometheus 监控系统由 Prometheus、Grafana 和 Alertmanager 三个主要组件
构成,共同形成一个强大而灵活的监控生态系统。Prometheus 作为核心组件,是
一个开源的系统监控和告警工具包,以其高效的时间序列数据库为基础。它采用
多维数据模型,使用 PromQL 查询语言支持复杂的数据查询和计算。Prometheus通过 HTTP 拉取模式采集数据,支持多种服务发现机制,具有高可靠性和可扩展性。Grafana 则是一个开源的度量分析和可视化套件,支持多种数据源,包括
Prometheus。它提供丰富的图表类型和动态仪表板,具有内置的告警功能和强大
的插件系统,支持 API 集成,使数据可视化变得直观和灵活。Alertmanager 专注
于处理告警,是 Prometheus 生态系统中的关键组件。它具有告警分组、抑制和
静默等高级功能,支持基于标签的动态路由配置和多种通知渠道,并通过集群模
式确保告警的可靠传递。