企业减少IT停机时间对于确保业务平稳运行、最大限度减少生产力损失和防止财务损失至关重要。通过采用监控工具、定期维护和自动化事件响应系统,企业可以显著减少计划外停机和恢复时间。
为了改善跨部门协作并防止IT系统停机,需要建立明确的责任线和明确的计划来解决停机的根本原因。同样重要的是确保每个团队了解他们的具体职责以及如何实施解决方案以有效解决这些原因。
必须认识到,快速响应中断取决于拥有畅通的沟通渠道以及运营和安全团队之间的有效协作。”
积极的IT实践对于最大限度地减少停机时间和保持系统弹性至关重要。自动化基础设施变更和应用程序部署是减少人为错误的关键。
尽可能自动化测试基础设施和应用程序变更也同样重要。建议通过安全信息和事件管理(SIEM)工具对遥测数据进行实时监控,以主动识别问题和威胁。
他还建议定期进行事件响应演习,例如混沌工程,它引入故障来测试系统弹性。
应该进行事后根本原因分析,以解决和缓解根本原因。变更板可以帮助团队透明地传达即将发生的变更并确定依赖关系。
事件响应计划至关重要
对于应对措施,阿什莫尔建议制定全面的事件响应计划,并明确定义升级路径。“自动化响应和遏制流程(例如隔离受感染的系统)可以显著改善团队处理中断或服务降级事件的方式,”他说。
为了防止IT停机,第一步是摆脱传统的“被动支持”思维模式,即问题出现后才得到解决。
借助当今先进的人工智能工具、遥测和主动洞察,我们应该主动解决IT问题,这意味着持续监控,这样我们才能在问题蔓延之前预防它们。
通过正确的解决方案,IT安全和运营团队应该能够跟踪其车队的健康状况,或者依靠可以为他们管理的可信赖的合作伙伴。
我对首席信息官的建议是分配资源来预防问题的发生。
衡量结果的指标
关注关键成功指标有助于IT团队保持高效并最大限度地减少停机时间。
平均故障间隔时间(MTBF)和平均修复时间(MTTR)对于了解故障频率和修复速度至关重要。
事件响应时间也至关重要,因为更快的反应可以减少中断的影响,而系统正常运行时间是可靠性的核心衡量标准。正常运行时间百分比越高越好。
最后,客户满意度分数可以深入了解停机时间如何影响用户,帮助团队衡量其努力的有效性。
衡量减少停机时间的投资回报的另一个指标是支持单的数量。如果支持单数量下降,那么很有可能您减少了员工的停机时间。
消除交接,投资预防
沟通和消除交接是提高运营效率的关键。您的响应团队从一开始就必须是一支融合团队,由安全、基础设施、技术、非技术和领导层组成,同时,您需要确定合适的规模,以便团队能够快速有效地运作。
这并没有一个神奇的数字,因此必须随着时间的推移,以创建一个能够尽可能独立和快速运作的团队为目标。这里的关键是团队需要能够自主工作,如果他们必须与许多不同的利益相关者核实信息才能采取行动,那么你已经输掉了这场战斗。
响应团队必须对业务优先事项以及决策指导原则有明确的定义,这一点很重要。
例如,如果发生重大中断,那么更重要的是首先让会计系统或客户支持票务系统上线。了解业务的优先级和流程对于大规模响应至关重要。
主动预防问题出现是一项全职工作,需要投入。我们正在不断改进我们能看到的内容、我们能识别的问题,以及如何为所有客户自动实施补救措施。
采用自动化、人工智能
自动化曾经更像是一种IFTTT模型(如果这样,那么那样),其中公司对可能触发自动化操作的错误条件有严格定义的标准-例如磁盘空间不足、内存不足或服务停止响应。
未来,自主工具将能够从系统中提取信息,帮助诊断和分类可能需要工程师干预的更复杂的系统交互。
除了自动化之外,联合数据预测人工智能在故障预测中的应用将会增长,并在IT领域变得无处不在。它将超越简单的机器学习预测算法,提供自我学习,使我们能够预测尚未见过的故障。
系统还将实施人工智能,通过自动恢复、补救、扩展和智能工作负载分配提供自我修复。人工智能将用于人工智能驱动的决策支持、事件剧本的自动生成、事件响应和根本原因分析。