top of page
作家相片Gao Zhe

关于数据中心停机要知道的10件事

数据中心停机的严重程度似乎在下降,而停机的成本却在继续攀升。电源故障是“重大站点中断的最大原因”。网络故障和IT系统故障也会导致数据中心停机,而人为错误往往是原因之一。


这些是最新的Uptime Institute数据中心停机报告中指出的一些问题,该报告分析了停机的类型、频率以及它们在金钱和后果方面的成本。

不可靠的数据是一个持续的问题

Uptime警告说,考虑到一些停机受害者和报告机制的质量缺乏透明度,与停机相关的数据应该受到怀疑。“停电信息是不透明和不可靠的,”运行时间研究执行主任安迪劳伦斯在介绍运行时间的年度停电分析2023时说。[通过注册网络世界时事通讯,获得定期安排的见解。]劳伦斯说,虽然航空公司等一些行业有强制性的报告要求,但其他行业的报告很有限。“所以我们必须依靠我们自己的手段和方法来获得数据。众所周知,并不是每个人都想分享由于各种原因造成的停机的详细信息。有时你会得到一个非常详细的根本原因分析,而有时你却什么也得不到,”他说。正常运行时间报告从三个主要来源收集数据:正常运行时间的异常事件报告(AIRs)数据库;自己的调查;以及公共报告,包括新闻报道、社交媒体、停电追踪器和公司声明。每一个的精确度都不一样。例如,公开报道可能缺乏细节,消息来源可能不可信。Uptime将其自己的调查评定为产生一般/良好的数据,因为受访者是匿名的,他们的工作角色也各不相同。AIRs的质量被认为非常好,因为它包含了由数据中心所有者和运营商自愿在同行中共享的详细的设施级数据。

停电率略有下降

据Uptime称,有证据表明,近年来停电率一直在逐步下降。这并不意味着停机总次数在减少,事实上,随着数据中心行业的扩张,全球停机次数每年都在增加。“这可能会给人一种错误的印象,即与IT负载相关的停机率正在上升,而事实恰恰相反,”Uptime报告说。“停机频率的增长速度赶不上IT或全球数据中心的扩张速度。”2024年最佳IT工作场所的提名已经开始总体而言,Uptime观察到每个站点的停机率稳步下降,这是通过其在2020年至2022年期间对数据中心经理和操作员进行的四次调查跟踪的。2022年,60%的调查受访者表示他们在过去三年中出现过停电,低于2021年的69%和2020年的78%。劳伦斯说:“停电率似乎在逐渐改善。”。

大修的严重程度似乎在降低

虽然60%的数据中心站点在过去三年中经历过宕机,但只有一小部分被评为严重或严重。正常运行时间衡量停机的严重程度,分为一到五级,五级是最严重的。1级中断可以忽略不计,不会导致服务中断。五级任务关键型停机涉及服务和/或运营的重大破坏性中断,通常包括巨大的财务损失、安全问题、违规和客户流失。和名誉受损。历史上,5级和4级(严重)停机约占所有停机的20%。2022年,严重/严重类别的断电率降至14%。据Uptime的首席技术长克瑞丝·布朗说,一个关键原因是数据中心运营商能够更好地处理突发事件。“我们在设计系统和管理运营方面已经变得更好,单个故障或失败不一定会导致严重或严重的停机,”他说。布朗说,今天的系统是冗余的,运营商在创建能够应对异常事件和避免停机的系统方面更加自律。经济损失正在上升当断电发生时,它们会变得更加昂贵——随着对数字服务依赖的增加,这一趋势可能会继续下去。看看最近四年Uptime自己的调查数据,直接和间接成本超过100,000美元的重大停机的比例正在增加。2019年,就恢复成本而言,60%的停机成本在10万美元以下。2022年,只有39%的停电损失低于10万美元。同样在2022年,25%的受访者表示他们最近的停电损失超过100万美元,45%的人表示他们最近的停电损失在10万美元到100万美元之间。布朗说,通货膨胀是部分原因;更换设备和劳动力的成本更高。更重要的是公司对数字服务的依赖程度。关键IT服务的丢失会直接导致业务中断和收入损失。“任何这些中断,特别是严重和严重的中断,都有可能影响多个组织和更大范围的人,”布朗说,“而且缓解这种情况的成本正在不断增加。”第三方提供商是大多数高调的公共服务中断的幕后黑手随着越来越多的工作负载外包给外部服务提供商,第三方数字基础设施公司的可靠性对企业客户越来越重要,这些提供商往往遭受最多的公共中断。据Uptime报道,自2016年以来,IT和数据中心的第三方商业运营商——云提供商、数字服务提供商、电信提供商——占所有公共中断的66%。逐年来看,这一比例一直在攀升。2021年,由云、主机托管、电信和托管公司导致的停机比例为70%,2022年这一比例高达81%。“越多的公司将他们的IT服务推向其他人的领域,他们就必须做他们的尽职调查——即使在交易达成后也要继续做他们的尽职调查,”布朗说。


人为错误是造成停机的常见原因,也是一个相对容易解决的因素根据Uptime基于25年数据的估计,虽然人为错误很少是停机的单一或根本原因,但在66%至80%的所有停机中,人为错误都扮演了一定的角色。但它承认,分析人为错误具有挑战性。不适当的培训、操作员疲劳和缺乏资源等缺点可能很难确定。Uptime发现,与人为错误相关的停机主要是由员工未能遵守程序(47%的受访者引用)或程序本身有缺陷(40%)造成的。其他常见原因包括服务问题(27%)、安装问题(20%)、员工不足(14%)、预防性维护频率问题(12%)以及数据中心设计或疏漏(12%)。从积极的一面来看,投资于良好的培训和管理流程可以在不花费太多成本的情况下大大减少停机。“你不需要去找银行家,获得一堆资本资金来解决这些问题,”布朗说。“人们需要努力创建程序,测试它们,确保它们是正确的,培训他们的员工遵守它们,然后进行监督以确保他们真正遵守它们。”劳伦斯说:“这是防止停电的最容易的办法,因为人为错误牵涉其中。”。电源问题继续阻碍数据中心的可靠性Uptime表示,其目前的调查结果与前几年一致,并显示现场电力问题仍是导致网站大面积停电的最大原因。尽管事实上大多数停机都有几个原因,并且关于这些原因的报告质量各不相同。2022年,44%的受访者表示电力是他们最近发生的重大事故或停电的主要原因。电力也是2021年(43%)和2020年(37%)重大停电的主要原因Uptime表示,网络问题、IT系统错误和冷却故障也是令人不安的原因。网络复杂性导致更多停机Uptime使用自己的数据,来自2023年Uptime resiliency调查,以深入了解网络中断趋势。在调查受访者中,44%的人表示他们的组织在过去三年中经历过由网络或连接问题引起的重大停机。还有45%的人说没有,12%的人不知道。与网络和连接相关的停机的两个最常见原因是配置或变更管理失败(45%的受访者提到)和第三方网络提供商的失败(39%)。Uptime将这一趋势归因于当今的网络复杂性。“在现代、动态交换和软件定义的环境中,管理和优化网络的程序会不断修改或重新配置。错误变得不可避免,在这样一个复杂和高吞吐量的环境中,频繁的小错误可以在网络中传播,导致难以停止、诊断和修复的级联故障,”Uptime报道。与网络相关的重大中断的其他常见原因包括:硬件故障:37%断线率:27%固件/软件错误:23%网络攻击:14%网络/拥塞故障:12%与天气有关的事故:7%防火墙/路由表损坏问题:6%IT系统和软件停机的常见原因当Uptime在其弹性调查中询问受访者,他们的组织在过去三年中是否经历过由IT系统或软件故障导致的重大停机时,36%的人回答是,50%的人回答否,15%的人不知道。与IT系统和软件相关的停机的最常见原因是:

配置/变更管理问题:被64%的人提及

固件/软件故障:40%

硬件故障:36%

容量/拥挤问题:22%

数据同步/损坏:14%

网络攻击/安全问题:10%


火灾并不常见,但可能是毁灭性的公开记录的停机,包括媒体报道的停机,揭示了广泛的原因。原因可能与数据中心操作员和IT团队报告的不同,因为媒体来源对停机的了解和理解取决于他们的观点。“真正有趣的是各种各样的原因,这部分是因为公众和媒体是如何看待它们的,”劳伦斯说。火灾是公开报道的中断中出现的一个原因,但在与IT相关的原因中排名不高。具体来说,Uptime发现7%公开报道的数据中心停机是由火灾引起的。在网络简报中,Uptime研究人员将数据中心火灾的发生率与锂离子电池的使用量增加联系起来。与铅酸电池相比,锂离子电池占地面积更小,维护更简单,寿命更长。然而,锂离子电池存在更大的火灾风险。劳伦斯说,2023年3月28日,法国Maxnod数据中心遭遇毁灭性火灾,“我们认为这是由锂离子电池起火引起的”。据报道,锂离子电池起火也是2022年10月15日韩国主机托管设施发生重大火灾的原因,该设施由SK集团所有,由其C&C子公司运营。劳伦斯说:“我们发现,每次我们做这些调查,火都不会消失。”


6 次查看0 則留言

Comentários


bottom of page