企业的业务运营高度依赖关键系统和资源的持续可用性,这种可用性水平直接影响着一家企业的绩效和表现。因此,系统可用性(即避免停机)成为首席信息官 (CIO) 关注的核心问题。本文将分享 7 个提升系统可用性的建议,帮助 CIO 为组织构建稳定、持续且不间断的服务支持能力。

要点

  • 随着业务运营日趋数字化,企业更加依赖持续可用的应用和服务,因此系统可用性成为 CIO 关注的一大焦点。
  • 为了尽可能提高系统可用性,CIO 应首先计算停机成本,重点关注企业最为依赖的核心应用和服务。
  • 在明确成本和优先级后,CIO 可制定可用性方案,并投资采用有助于企业实现业务目标的基础设施解决方案。

CIO 的角色发生了哪些变化?

近年来,伴随着更高水平的自动化和高级技术(例如人工智能以及面向客户和合作伙伴的在线自助功能)被广泛认为能够激发更高盈利能力和更强劲增长,CIO 成为了数字化企业的拥护者。这些举措的成败在很大程度上被纳入了 CIO 的职责范围,CIO 也成为很多企业中数字化转型的实际领导者 (opens in new tab)

CIO 在系统可用性方面的角色

随着数字服务和应用在企业运营中的地位日益凸显,企业对其背后支撑系统的依赖也不断加深。由此,系统可用性成为 CIO 关注的一大焦点。当系统可用性不足或不稳定时,企业就可能遭遇停机事故,进而引发运营受阻、客户和合作伙伴不满、员工工作效率下降等连锁反应,而这些影响最终都会直接反映在企业的财务表现上。出于这些原因,CIO 肩负着确保关键任务应用和服务持续可用的重要责任。

提升系统可用性的 7 个技巧

对于提升系统可用性,除了培养更多的成功企业领导者优秀习惯 (opens in new tab)外,一些切实可行的技巧和方法对于 CIO 同样不可或缺。通过落实以下 7 项优秀实践,CIO 可以延长系统的平均无故障间隔时间 (MTBF),构建一个可驱动持续运营的可靠环境。

  1. 计算关键任务服务的停机成本。

    如果不了解系统停机会给企业造成多少损失,CIO 将难以获得必要的投资来构建一个持续运行环境。然而,计算停机成本(包括随之而来的商誉损失和客户流失的相关成本)是一项艰巨的任务。对此,将分析范围限定在收入损失和生产力损失上虽然简单得多,但仍能为确定各类预防措施的投资回报率 (ROI) 提供坚实依据。

    需要注意的是,停机发生的时间和持续时间是衡量损失程度的重要因素。显然,相比非工作时段的短暂服务中断,业务繁忙时段的长时间停机带来的损失将更为惨重。因此,在计算停机成本时,CIO 应将这些要素纳入考量。

    如果您认为这种简化的计算方法仍然较为复杂、难以驾驭,可以按服务或按应用(从最关键的服务和应用入手,而非整个企业基础设施)来逐一计算停机成本。这能让 CIO 初步清晰了解停机给组织带来的损失,以及为降低这些损失所需投入的停机预防资金水平。

  2. 监控端到端的服务与应用可用性。

    很多 IT 部门会严格跟踪服务器和存储设备的正常运行时间,但很少有 IT 部门会监控交付特定应用或服务(如电子邮件)所需的所有基础设施和软件组件的端到端正常运行时间。然而,这却是 CIO 最需要跟踪的指标,因为它能精准反映用户的实际体验。当一项重要的应用或服务中断时,业务运营便会陷入停滞;员工无法开展工作,客户也会心生不满。

  3. 基于企业目标选择适合的技术体系。

    企业可通过多种技术实现持续运营,包括应用和服务监控解决方案、双活架构、虚拟机快速重启技术,以及通过云技术平台交付的各种软件即服务 (SaaS) 方案。对于 CIO 而言,难点在于如何选择契合企业目标的解决方案。这意味着,除其他方面外,需制定一个全面的策略,在预算范围内满足必要的系统可用性要求。

    对此,服务级别协议 (SLA) 可提供重要支持,有助于在不同业务部门与 IT 部门之间达成共识。借助 SLA,业务部门可明确其可用性需求的优先级,并规定所需的运行时间水平。随后,CIO 可以基于每个业务部门的要求,选择并配置相匹配的技术架构与解决方案。

  4. 为系统组件故障制定预案,同时力争实现 100% 的服务运行时间。

    墨菲定律告诫人们:“凡是可能出错的事,准会出错,而且越怕出错越会出错”。毫无疑问,依赖日趋复杂的系统和应用的数字化企业也逃不开这一点。这意味着,由于存在太多的潜在故障点,让所有系统组件实现 100% 的正常运行时间是不切实际的幻想。对于 CIO 而言,更可行的目标是仅在关键任务应用上追求 100% 的服务连续性。通过制定前瞻计划、部署出色的维护和服务监控流程、实施适合的快速响应措施,这一点是可以实现的。

  5. 在应用开发和测试流程中纳入可用性与连续性考量。

    企业往往是在应用部署完毕后才考察应用的可用性和连续性。届时,应用的处理过程、逻辑,以及赖以运行的服务器和其他基础设施都可能影响其服务级别。为了规避这些限制因素,CIO 应将应用弹性问题纳入开发、基础设施选型和验收测试流程。

  6. 创建标准作业程序来应对可用性问题。

    为确保系统达到理想可用性水平,CIO 应确保企业实施了标准流程和作业程序来帮助支持人员诊断问题和修复潜在故障点。例如,如果一个系统组件无响应,相关作业程序应基于当应用完全失效时的风险等级升级响应速度,同时提供清晰的诊断步骤和一系列可行的应对措施,以指导支持人员快速、有效地处置问题。

    这类作业程序通常称为“维护 SOP(标准作业程序)”,本质上是一种描述问题解决步骤、预期实践和质量标准的详细文档。制定这些流程对于培训技术人员和 IT 操作管理人员也十分有益,同时还有助于确保合规性,因为流程中包含的步骤需符合行业法规、适用法律以及企业内部标准。

    通过使用维护 SOP 来解决常见系统故障,企业可以缩短响应时间,并确保系统工程师在故障发生后可访问相关诊断数据来排查故障根本原因。

  7. 通过自动化减少人为错误。

    一定程度的人为错误在所难免,这意味着一个流程中参与的人员越多,出错的可能性就越大。对此,关于业务自动化的统计数据已反复证明了自动化的价值。将常规工作自动化可减少出错并提升系统可用性。此外,通过将 IT 人员从庞杂的系统监控和维护工作中解放出来,CIO 能够将宝贵的资源投入到应用开发和其他增值活动中。鉴于大多数 IT 专业人员普遍乐于接受这一转变,自动化的监控与维护举措也有助于 CIO 在人才保留与招聘方面取得更积极的成效。

通过践行这 7 项优秀实践,CIO 可确保企业内的关键任务应用和服务按需持续可用。这不仅是保障业务连续性的基础,更是企业实现全天候、全年无间断(24/7/365)服务客户、支持合作伙伴的必要前提,也是迈向真正数字化企业的重要标志。

系统可用性常见问题解答

什么是系统可用性?

系统可用性是一个用于表示计算机系统或其他复杂设备在用户需要时的可用概率的常用指标。该指标以正常运行时间(而非停机时间)占总时间的百分比来计算。

什么是可用性维护?

由于系统维护工作高度影响着一个系统是否在用户需要时可用,因此系统可用性指标用于衡量系统维护工作的有效性。停机可分为计划内停机和计划外停机,也可按频率和时长划分,企业应根据具体情况调整维护措施。例如,如果大多数停机属于计划外停机,可能需要加强预防性维护;但如果影响系统可用性的主要因素是计划内停机,就可能需要减少预防性维护的频次和持续时间。

为什么系统可用性至关重要?

系统可用性不佳会干扰业务运营,降低员工工作效率,而这些会直接影响企业的财务表现。

什么是系统可用性指标?

最常见的系统可用性指标以百分比计算,其计算公式为:可用性 = 正常运行时间/(正常运行时间 + 停机时间)x 100%。另一个常见的计算公式为:可用性 = 平均无故障工作时间/(平均无故障工作时间 + 平均故障修复时间)x 100%。这两个指标可互换使用,因为其得出的结果一致。