引言

在整个IT产品的寿命周期中,运营阶段的成本占了整个成本的约70%—80%(其余的成本花费在产品开发和采购上),而运行维护作为运行服务的重要组成部分,已成为人们关心的重要课题(李淑娟等,2008)。地震行业Oracle数据库系统支撑了信息、前兆、应急、日常办公等多种应用,已成为地震业务、政务系统运行的基础保障。数据库系统的运行水平直接决定了业务系统的运行质量。本文总结了近4年来Oracle数据库运行维护过程中出现的问题,归纳了影响数据库运行的各种因素,提供了数据库运行维护过程中的关键点,对指导数据库的稳定、健康、可靠运行可提供参考。

1 现状

目前,Oracle数据库系统主要集中分布在国家中心、41个区域中心、33个应急中心、300个县节点、300个台站,其中双机系统79套,单机系统600套。而支撑行业数据库运行的硬件平台多样,部署方式复杂,具体表现在以下几个方面。

(1)数据库系统的部署环境多样复杂。双机数据库IT环境涉及到IBM服务器、曙光服务器和SUN服务器系统,以及数据存储系统EMC与HDS。

(2)数据库系统的技术结构复杂,管理难度高。系统大多采用Unix和Linux系统,数据库使用Oracle 10g RAC,存储使用Oracle ASM管理。

(3)数据库系统地域分散。主要集中分布在国家中心、41个区域中心、33个应急中心、300个县节点和300个台站。

(4)系统管理分散。各级节点自行管理维护。在部分节点内部,服务器和操作系统一般按照业务应用分多个运行维护小组,各自管理维护。

以上特点决定了地震行业数据库运行维护是一个复杂而艰巨的任务,需要总结多年来数据库运维过程中出现的问题,制定合理的运行维护策略,以保证数据库系统的正常运行。

2 运行维护事件分析

为了更好地分析数据库运行维护过程中出现的问题,作者分析整理了近4年来数据库运行维护过程中出现的各类问题,其中系统故障6类、存储故障5类、网络故障3类、ASM故障11类、CRS故障8类、数据库本身故障12类及其它故障4类,具体故障如表1所示。

表1 数据库故障分析一览表 TableTable 1List of failure analysis for the database

进一步对表1中7大类故障进行分析,可以看出存在以下问题:

(1)操作系统平台存在兼容性问题

如部分省局数据库运行在曙光服务器上,操作系统为SUSE,操作系统与后台存储系统之间的衔接容易出故障,如:表1中的系统故障(2)和(3)。而采用IBM和SUN硬件平台的节点数据库系统就没有类似问题的发生。

(2)存储系统平台存在兼容性问题

如应急数据库系统部署在HDS之上,HDS经常容易发生数据坏块的情况,造成数据库故障,如:表1中的存储故障(3)、(4);ASM故障的(1)、(2);CRS故障的(5)、(8)等。

(3)日常维护存在问题

在操作系统和存储系统软硬件平台不出现问题的情况下,需要维护人员每天、每周和每月定时做很多工作,如:查看磁盘空间使用情况、数据库告警日志等。而目前缺乏统一的规章制度与规范,督促维护人员完成这些日常工作,维护工作的好坏基本上取决于维护人员的责任心。再者,运行维护人员的水平较低,一些基本的数据库维护工作难以很好的完成。如果有一套健全的规章制度与规范,同时还有一批具有较高数据库运行维护经验的管理人员,那么上述7大类故障中的大多数故障是可以提前预防的。

(4)数据库管理和维护缺乏科学依据

缺乏一套有效的数据库监控系统来对数据库运行状态的各关键指标信息进行数据搜集和统计,完成如日常性能监控、每月性能评估、数据库审计等人工工作量大,难以完成的工作,将数据库隐患消灭在萌芽状态(秦士兵,2012)。

而在数据库运行维护中凸显出来的主要问题有:

(1)运行维护管理制度不健全。目前Oracle数据库管理被动、分散、管理规范不完善,如:缺乏统一的备份与管理策略、安全策略、管理流程等。

(2)运行维护人员技术水平较低。相对于专业的Oracle数据库运行维护人员而言,目前行业内的技术人员在数据库方面的运行维护技能水平较低,技术人员相对不固定。虽然技术人员通过了每年的技术培训,但在提高运行维护的能力方面还有待进一步提高。

(3)运行维护技术平台亟待建立。缺乏数据库基础运行环境(操作系统、存储系统和网络)的统一故障预警及故障监测机制。管理员对系统故障的反应速度无法提高,一般是在出现问题以后才进行查找及处理,难以充分保障关键业务系统的可用性,无法做到“主动式”系统管理。

3 对策与建议

针对数据库运行维护过程中出现的问题,应该从运行维护的组织架构、流程制度规范、技术支撑平台(蒋晓玲等,2012)等方面着手,以求提高行业数据库的运行维护水平和能力。

(1)完善行业数据库运行管理制度

以提高数据库运行水平和管理能力为目标,建立一套完整的流程管理规范,同时结合必要的工具管理软件,使主机、存储和数据库系统得到责任保障,保证数据库系统连续稳定运行。

(2)加强人员培训

一般来说,地震行业比较注重硬件平台建设,而对流程和人员的软平台建设有所忽略。由于当前人员的技术水平还较低,再加之相关培训的不足,因此解决实际问题的能力和效率较低。为此需要开展相关的技术培训,以提高地震系统数据库的运行和维护技能。

(3)建立数据库运行维护技术支撑平台

应建立数据库基础运行环境(操作系统、存储系统和网络)的统一故障预警及故障监测机制,由过去的“被动式”管理转变为“主动式”管理,以提高数据库管理人员对系统故障的反应速度,保障关键业务系统的可用性。

(4)建立数据库运行维护知识库

开展数据库知识转移工作,建立一套持续机制,确保维护知识和技能的传承。将数据库运行维护中的每次事件、故障或者问题解决过程中所获得的解决方法和维护经验都记录下来,建立一个知识库,以提高对出现的事件及问题的处理效率。

4 结语

Oracle数据库系统的运行维护是一个需要长期面对的研究课题,应结合IT行业运行维护的相关管理理论,进行不断的开发和完善。本文仅针对目前存在的问题提出了一些方向上的解决办法。在未来的发展中,还需要将成熟的管理理论与具体的需求及目标结合起来,以探求出解决具体问题的方案。

参考文献
[1]蒋晓玲,林钟灵,2012.基于ITIL的油气田信息系统运行维护体系的构建——以中国石油西南油气田为例. 天然气工业 ,32(s1):162—164[本文引用:1次]
[2]李淑娟,赵泽宇,宓詠,2008.信息化校园应用的运维监控保障研究. 实验技术与管理 ,25(8):11—14[本文引用:1次]
[3]秦士兵,2012.电力企业信息系统中Oracle数据库运维管理. 中国新技术新产品 ,21:41—42[本文引用:1次]