Rose ha for windows 8.5F 软件故障监测与排除
F 备份和数据保护
F 管理站能够监视各站点的运行情况,能随时或定时报告系统运行状况,故障能及时报告和告警,并有必要的控制手段
F 实现错误隔离以及主、备份服务器间的服务切换
建立一个故障恢复系统,每一个重要部件都必须配有冗余备件,当一个部件出现问题时,它会自动被备件替代而不影响系统正常运行,这就是常说的故障恢复。它的目标是尽量实现不停机操作。故障被掩饰掉,而且尽量不修改最终的应用程序。
用适当的措施来确保计算机系统提供不间断的服务,为即将受到影响的信息系统提供不间断的系统服务。尽量缩短因日常维护操作(计划)和突发的系统崩溃(非计划)所导致的停机时间,以提高系统和应用的可用性。它与被认为是不间断操作的容错技术有所不同。HA系统是目前企业防止核心计算机系统因故障停机的最有效手段。利用更少的冗余部件同时由软件检测故障,一旦故障发生立即隔离损坏部件,通过提供故障恢复实现化系统和应用的可用性
![](https://res.gys.cn/img/mobile/common/loading/circle-loading.svg)
ROSE HA高可用性软件的组成
1.ROSE HA软件的组成
服务程序(Service)
为客户提供服务的进程,如NFS或Oracle、Sybase、Informix等数据库服务。
HA代理(Agent)
HA代理监视服务的可用性,并向HA管理进程报告服务的状态。
HA管理进程(HA Manager)
HA管理进程是ROSE HA软件的核心进程,由它来初始化系统配置,接来自HA代理的信息,并通过私用网与其它服务器的HA管理进程通信,协调运行服务器与备份服务器间的关系。
GUI管理工具(Administration Tool)
系统管理者通过GUI管理工具管理、监视服务的运行状态。
2. ROSE HA软件的运行过程
系统起动后,ROSE HA首先启动HA MANAGER管理程序,根据高可用性系统的配置结构初始化,然后启动必要的服务和代理程序来监控和管理系统服务。HA代理程序用来监控、监测、诊断和管理硬件软件服务。
代理程序检测到该服务处于活动状态,HA MANAGER就会认为该服务处于活动状态,HA MANAGER会定时通知后备服务器上的HA MANAGER,其每项服务处于正常。
当代理程序检测到某个服务发生故障时,它就通知HA MANAGER管理程序。HA软件首先会重新起动该服务多次(可由用户设定),如果启动不能成功,该服务会由HA转移到后备服务器上。
HA周期性地检测系统硬件的状态,如果硬件发生故障,HA会把与该硬件相关的服务转移到后备服务器上。
当某项服务发生转移时,HA首先在运行服务器上停止该服务,之后,由备份服务器上的HA在备份服务器上启动该服务。由于停止和启动该服务都需要一定的时间,所以当服务被切换(转移)时,该服务会有短暂的中断,转移完成后,服务自动恢复正常运行。
考虑到一些数据库系统(如Oracle、Sybase、Informix等)以及其他一些应用软件(如Domino Server、WWW Server等),ROSE HA在HA管理模块(HA Manager)的基础上,提供了一系列的Agent软件模块。
Agent为一个软件监视模块,监控数据库服务或其他应用服务的运行。当运行服务器发生故障时,由Agnet检测到之后,Agent向HA主控软件请求,进行相应的处理动作。
总之,ROSE HA软件***程度上减少了人的介入,提高了系统的可靠性与安全性,使服务能高可靠的运行。
![](https://res.gys.cn/img/mobile/common/loading/circle-loading.svg)