概述
随着中国电信信息化技术的发展,计算机系统对电信业务的支撑显得越来越重要。与此同时,硬件故障,计算机病毒,网上黑客,以及生产环境的灾难都对业务系统构成严重威胁。是否可以利用一些简单设备建设一套针对多个业务支撑系统的应急系统?在业务系统出现故障的时候,业务也不会发生长时间的中断,而且这套应急系统不能过多的影响业务系统正常工作。
二、系统描述

2.1 硬件环境
主点(生产环境): Uinx小型机,如HP,IBM,SUN,高端PC服务器;
复制服务器: 中低端 PC Server;
备份点: PC Server 根据主点的规模配置CPU数目和内存硬盘,
2.2软件环境
主点 (生产环境):Unix操作系统,数据库 Sybase ASE,Oracle,DB2,Inforix; Tivoli,如果主点不是Sybase数据库则需要配置相关的复制代理Rep Agent;
复制服务器: Windows 2000/Linux,Rep Server ,RSSD Sybase ASE;Tivoli,如果备份点不是Sybase需要配置ECDA;
为了满足这样的需求,提出以复制服务器为核心的应急系统解决方案,并在实验室环境顺利通过测试。最近我们和Topper公司一起联合中山电信公司进行试点,在生产环境中对系统的功能和性能进行测试,取得了令人满意的结果。
备份点:操作系统Windows 2000/Linux,数据库Sybase ASE 12.5.3;Tivoli。
三、应急系统安装
从主点DUMP业务系统数据库,在备份点LOAD生成数据; 从主点数据库导出用户表信息,在复制服务器上生成双向复制发布和订阅; 启动复制服务器及复制代理,两端数据库实现实时复制,保持数据同步。
四、应急系统功能
4.1数据的一致
向主点数据库执行插入操作,备份点数据库及时同步; 同步的时延非常短暂; 对业务系统是不构成明显影响。
4.2当主点数据库失效时备点接管其功能
主点数据库停止,备份点数据库立即接替主点工作,使用业务系统的应用程序立即可用(查询和输入数据)。
4.3当主机异常失效备点接管其功能
主点服务器宕机,备份点数据库立即接替主点工作,使用业务系统的应用程序测试立即可用。
4.4 主点恢复,数据和功能切换回主点
通过Tivoli,停止备份点服务器浮动过来的IP,在主点重新启动此IP,查看主点数据库是否可用,使用业务系统的应用程序是否可以正常连接到主点,数据是否一致。
五、风险及规避
在生产系统中进行,应急系统在切换过程中或多或少都会对业务造成影响,需要对整个过程中可能出现的风险进行分析,给出规避方法。
5.1网络连接
由于对于电信公司大型计算机中心内部网络和DCN 连接是透过防火墙的,在设置中做了MIC地址和IP的绑定,因此需要电信公司配合,对网络环境做调整,使主点、备份点以及使用的浮动IP地址都可以在业务系统被访问,并在应急系统安装前做好测试。
5.2客户端连接中断
有于前台应用程序可能使用“常连接”,在应用系统和应急系统之间切换的时候可能出现连接中断,应用系统会报错。
建议:请通知可能在切换时使用应用的前台操作人员,当出现报错时请稍后 (约1分钟) 重新启动应用程序。
5.3数据丢失
在应用系统和应急系统之间切换的时候,有可能出现“会话”的丢失,并在IP地址DOWN掉瞬间有没有提交的事务,将不会被复制到备份点。
建议:在做测试的几十分钟内把输入的数据做一个手工的备份,假如出现数据丢失可以及时恢复。
5.4备份点性能不足
由在应用系统中,主点使用的服务器是一般是性能较高的小型机,而现在有的服务器设备比较小; 处理能力低很多,因此可能出现负荷过高的情况。
建议:非忙时先做测试,比如晚上营业厅下班以后,后台定时程序运行之前 (6:30PM~21: 00);如果测试性能没有问题则继续,如果性能压力明显,升级备点服务器再做测试。
中山电信在生产环境中对以复制服务器为核心的应急系统解决方案的功能和性能进行了测试,取得了令人满意的结果。