您好,欢迎来到华佗小知识。
搜索
您的当前位置:首页服务器故障应急响应方案说明

服务器故障应急响应方案说明

来源:华佗小知识
 完美.格式.编辑

服务器故障应急措施方案

 部门  日期

 版本编号  密级

Ver_1.0 公司内部使用

文档信息 文档名称 日期

2014-03-14

服务器故障应急措施方案 版本号 Ver_1.0

更新说明

建立文档、初始化

专业.资料.整理

完美.格式.编辑

1. 方案概述

导致服务器出现故障的问题是一个庞大的集合,可以分成很多种导致服务器出现故障的原因,根据服务器故障出现的状况进行分类,确定故障属于哪一个级别,根据相应的故障级别对故障做对应的处理,确保故障的处理流程是标准化的。

如果没有一套故障处理的标准,工程师只能靠经验去判断,但是依靠经验判断并不是不可以,有时候这种处理方式会很高效,但是大多数这种处理方式都是不太合理的,如果更换了运维工程师,显然每一个工程师通过经验去判断故障原因的方式都不尽相同,这样的差异将会使故障处理事后不能够得到很好的记录与存档,以供其他工程师以后借鉴故障处理案例。

故障处理标准化的优点:

A. 根据流程可以确定哪些故障应该立即汇报上级,哪些可以自行解决后,再写故

障处理报告汇报上级,这样做有助于提高故障处理效率。

B. 对于工程师经验判断,可能出现判断失误的情况,根据故障判断流程,可以不

遗漏任何可能的情况对服务器故障进行排除。

C. 有时候工程师处理了故障之后只是简单的做了一下汇报,并没有一些故障处理

过程的记录,以及故障处理的详细时间记录,这样对需要追溯以前的具体情况的时候就束手无策了。

2. 划分故障等级

故障级别 Ⅰ级 (紧急) 故障说明 故障处理第一步 当系统出现下列相当严重的现象时,属一级故障: 立即汇报上级 系统整体瘫痪,全部操作失去响应; 系统崩溃,关键硬件或文件系统损坏无法自动修复; 发生间歇性、随机性、重复性的启动或应用退出,无法保障公司业务的正常处理。 当系统出现下列比较严重的现象时,属二级故障: 立即汇报上级 关键部件(含软、硬件)停止工作,导致系统降低运行状态,客户业务受到严重影响; 系统整体性能严重下降,无法自动恢复正常运行状态; 重要数据、参数和配置信息损坏,无恢复,Ⅱ级 (重要) 专业.资料.整理

完美.格式.编辑

导致客户数据及业务记录严重损失; Ⅲ级 (关键) 当系统出现下列现象时,属三级故障: 部分设备或软件异常,局部功能受限,系统整体仍可正常工作,对客户业务影响不大或存在隐患; 关键备用设施因故障离线,主用设施仍能正常工作; 系统运行指标(例如: I/O 效率、 CPU 效率)受到直接或间接影响,客户业务处理缓慢; 当系统出现下列情况而不影响客户业务时,属四级故障: 不在运行状态的线路、端口损坏; 出于安全考虑并且是受保护的软件降级或应用重启; 因存储空间不足导致的性能下降; 系统硬件、软件产品功能、安装、或配置方面的支援; 业务仍然可以正常运作,但是服务器报出故障信息的; 立即汇报上级 Ⅳ级 (告警) 故障排错判断

3. 故障分类

序列 问题种类 详细内容 一 1、 骨干网光纤切割; 2、 机房网络升级; 机房网络故障 3、 机房网络设备调试; 4、 机房网络设备损坏; 1、 服务器没有备案; 2、 域名备案存在问题; 3、 黑客入侵导致服务器违法行为; 部门封网 4、 违规代理服务器; 5、 服务器转发违禁网站; 6、 服务器放置的网站内容不符合当地的法例法规; 二 1、 机房空调故障问题; 三 机房铺助设备故障 2、 机房灰尘过多问题; 3、 机房电力供应问题; 专业.资料.整理

完美.格式.编辑

四 1、 机柜扩容; 机房机柜迁移 2、 机柜移位; 3、 服务器迁移机柜; 1、 电源线损环; 2、 服务器电源损坏; 3、 服务器非人为硬盘损坏; 服务器硬件故障 4、 服务器受黑客入侵攻击时导致硬盘损坏; 5、 CPU温度过高烧毁; 6、 内存使用中损坏; 7、 主板在电源损坏时容易烧毁; 1、 黑客攻击导致系统瘫痪; 2、 缓存日志过多没有整理; 服务器系统故障 3、 人为配置不当导致系统崩溃; 4、 硬盘损坏导致系统崩溃; 1、 服务器放置的应用程序存在bug后门等; 2、 服务器环境配置问题; 3、 黑客攻击导致应用程序崩溃; 服务器应用故障 4、 硬盘、内存的兼容性差导致应用程序崩溃; 5、 应用程序没有优化占用服务器硬件资源过高导致崩溃; 6、 用户负载过多导致应用程序崩溃; 五 六 七 1、 数据超过硬盘读写负载能力导致应用程序崩溃; 2、 CPU使用率跑满导致服务器宕机; 八 服务器硬件超负荷 3、 使用内存cache占用过多导致宕机; 4、 硬盘空间使用满导致宕机; 1、 用户量过多,服务器带宽不足,导致卡顿,用户访问程序故障; 九 服务器网络超负荷 2、 系统连接数过多造成系统拥堵网络带宽使用不上; 3、 数据库数据读写占用过多服务器连接数,达不到预期的服务器带宽; 1、 人为违规关机; 人为违规操作 2、 人为违规操作更改或删除服务器应用; 3、 机房人为关机或断电; 十 1、 服务拒绝攻击导致系统崩溃,如常见的UDP洪水攻击等; 2、 利用型攻击导致黑客入侵系统,如特洛伊木马、口令猜测十一 服务器受到攻击 等; 3、 信息收集型攻击,如体系结构探测、DNS域转换等 4、 假消息攻击,如DNS高速缓存污染、伪造电子邮件等 专业.资料.整理

完美.格式.编辑

十二

不可预知因素 1、 机房遭遇火灾事故; 2、 机房遭遇地震事故; 4. 故障应急处理流程

Ⅰ级(紧急) 汇报上级 记录发生时间 故障排错流程 服务器出现故障 判断故障级别 Ⅱ级(重要) Ⅲ级(关键) Ⅳ级(警告) 汇报上级 汇报上级 记录发生时间 记录发生时间 记录发生时间 故障排错流程 故障排错流程 故障排错流程 问题处理完成 故障处理报告 发送邮件给相关人员 服务器故障处理完毕 5. 故障排错流程

故障排错开始 专业.资料.整理 判断故障等级是否属于Ⅰ级或Ⅱ级 是否有备用 服务器 完美.格式.编辑

是 是 否 否 检查当前故障服务器 执行数据备份与日志 备份的脚本 查看报错日志,根据故障分类 确定故障范围,逐条排除 否 尝试修复故障,并 且验证是否解决 是 故障处理完成

启用备用服务器 6. 数据与日志备份

在进行故障修复的时候,需要对服务器系统以及软件的配置文件进行修改,这些修改可能造成的风险是很大的,这时保存备份配置文件信息、应用数据、系统日志信息会很重要,可以直接通过shell脚本对服务器重要的数据进行备份。

7. 故障处理报告

7.1. 故障处理报告文件命名规则

文件名前缀 故障处理报告 Ⅱ级—重要 (终端#前面的字符) 故障级别 Ⅰ级—紧急 服务器名称 Linux服务器名称 故障分类—详细内容 故障类型 专业.资料.整理

完美.格式.编辑

Ⅲ级—关键 Ⅳ级—告警 例如:故障处理报告_Ⅰ级—紧急_squid-chendu_系统崩溃

7.2. 故障处理报告内容

故障发现时间 处理完成时间 Xxxx 年 xx 月 xx 日 xx:xx (24小时制) 如果处理一次就解决的直接写: Xxxx 年 xx 月 xx 日 xx:xx (24小时制) 如果多次处理后才解决,按下面格式写: ① Xxxx 年 xx 月 xx 日 xx:xx (24小时制) ② Xxxx 年 xx 月 xx 日 xx:xx (24小时制) ③ Xxxx 年 xx 月 xx 日 xx:xx (24小时制) 故障处理人员 故障描述 根据故障等级划分的说明加上一些详细的内容 故障处理过程 故障排错的详细过程,可以用图表形式表达 故障原因 导致故障发送的原因 解决方法 写上最终用什么方式解决故障问题

专业.资料.整理

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.cn 版权所有 湘ICP备2023017654号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务