把上海,广州两个站点网络全断掉!
趁他们晚饭不注意的时候,注入攻击!
还要在凌晨3点大家睡觉的时候,再攻击一波!
hellip,hellip,
这是华为云最近破获的一次阴谋,时间就在春节前夕。
之所以这波攻击不容小觑,是因为如果阴谋一旦得逞,华为云内部系统的运行将面临严重的后果。
1个月发动组合攻击20余次
攻击者的计划,在3个月前就已经开始。
经过密谋协商,他们决定在春节前后干票大的,近1个月来发动组合攻击20余次。
动机很简单:春节期间,各种短视频,社交媒体,包括自拍软件等应用流量激增,理论上是多数云服务厂商流量最高,最易出故障的时候。
一旦攻击成功,就会有大量互联网服务出现不稳定,甚至影响更大的情况。截至2021年9月,华为云已与合作伙伴在全球27个地理区域运营61个可用区域,覆盖170多个国家。
尤其像除夕抢红包这类活动,8点到凌晨1点正是流量峰值期,故障多一秒钟用户都无法忍受。
所幸,这次攻击结果并未达到目的。
华为云反应非常迅速,将排查问题的时间限制在3分钟内,并利用5分钟进行修复,最终在8分钟内就处理好了系统故障,全程没有影响到云上业务的运行。
不免让人好奇,为何华为云会任由这些攻击反复发动。
毕竟对于华为云来说,这群攻击者已经不是初次来犯。
手段从人为攻击到利用系统自动攻击,类型从断网,故障注入到各种最新的攻击武器,都被他们尝试过。
但即使面对未知攻击,华为云却依旧能迅速处理。
不止这类春节前夕的攻击,面对各种类型的攻击,他们都能及时察觉系统异常,迅速定位并解决问题,将整个过程压缩到10分钟内。
而这又是为何。
随时待命的特战队
原来,这个秘密谋划三个月,攻击华为云上千次的攻击者团队,竟是华为云内部的一支秘密团队,名曰蓝军。
他们不停地设计最新的攻击弹药,随时对华为云系统进行突袭。
至于作为防御方的红军团队,则是随时处于待命状态,一旦察觉蓝军攻击便第一时间进行修复。
两个团队之间没有任何沟通,什么时候触发攻击也不可知。
除了人为攻击,蓝军甚至还用上了混沌工程,系统会随机,自动地去攻击红军维护的系统,近一年攻击总数多达2000+次。
而在这类攻击背后,所有的动作都只有一个目的mdash,mdash,
提升华为云系统的稳定性和应急能力。
即使在春节,系统的维护和防御也不会停止:华为云专门成立了一支特战队。
特战队的规模上百人,都是已经应对过无数次攻击,身经百战的全栈工程师。
从现在一直到元宵节,特战队队员们按三班倒的形式,7 x 24小时全职投入春节运维保障。华为云持续加大全球数据中心和网络布局,提供体验一致的全球网络,让客户的业务快速到达全球。
华为云,春节保障纪实!今年春节,#华为云 投入2000多名工程师,21年11月就开始筹备,打响了一场数字世界的春节保卫战,在线,是我们的责任!#共建智能世界云底 #华为#春节 #运维视频号
这样一来,即使攻击者想趁虚而入,从流程上来说也不会太过轻松。
但这还仅仅是解答了第一个疑问。据宣布,墨西哥和中国乌兰察布两个新区将于9月23日正式开放。
为何华为云面临攻击,能迅速稳定地处理整个流程。
故障率保持在0.01%以内
可以说,这次蓝军的攻击,正好撞在了早有准备的红军枪口上。
早在三个月前也就是11月5日,红军就已经开始排查系统风险,并通过流量预估来进一步降低故障发生率。
事实上,这已经不是传统意义上的运维团队了。
无论是日常排除风险故障,维持系统稳定的红军,还是春节值守的特战队,都来自华为云内部一只训练有素的团队mdash,mdash,SRE。
SRE这个概念,最早定义是用软件工程的方法从事运维活动在华为云这里还要更精细一点,诞生出了确定性的方法论,来达成高可用的目标
一言以蔽之,就是在设计产品时就考虑高可用的架构,并将风险控制做到动态清零,再加上智能化运维平台,来控制不确定性的风险,达成确定性的风控质量。
SRE团队自主研发了一个智能运维平台,用数据驱动的方法,将运维过程变得标准化,自动化具体而言,这个平台不仅能实时记录运维数据,还能度量全流程各个环节的质量,真正做到缩短问题发现,故障定位和修复的时间
如今,平台的监控指标数量已经达到160亿/小时,运维系统用户数达到10000+,变更频率每分钟2次,兼顾智能运维和日志记录等功能。
在智能运维平台以外,SRE团队还会借助流量预估等工作,来进一步提升系统的可用性,降低风险发生的概率。
具体来说,是通过特定的算法模型,结合指标对资源使用情况进行预估。乌兰察布地区作为全球最大的华为云渲染基地,可以提供一万个核心铸就一幅画卷;激增的计算能力。
在华为云背后,有一个博士军团,其中有专门的算法创新实验室,研究人员会协助流量预估人员进行算法调优,像近期实验室一篇关于用强化学习求解虚拟机调度问题的论文,已经被顶级期刊Pattern Recognition接收。
同时,还会借助云操作系统和全域调度等技术,高效压榨并分配有限的流量资源,包括采用瑶光智慧云脑,负责整个云的资源分配,部署,调动和供给,以及结合全域调度等技术,进一步精细化资源的利用效率等。
目前,华为云系统的故障发生率也被压制在0.01%以下,即一年故障发生的时间保持在53分钟以内。
数字世界的春节保卫战
事实上,华为云今年投入春节保卫战的人力,前后已经接近1000人。
其中整个SRE团队几百人,更是一直处于全员在线的备战状态。。
某种程度上,他们与传统行业里的员工一样,是保障我们生活便利的春节值守人。
只不过维度从线下的物理世界转变到了线上的数字世界。
在运维行业干了20多年的张智认为,春节的味道其实并没有变,只是换了个地方过年。
以前春节主要是在物理世界,但现在数字世界的春节可能比物理世界更热闹现在我在数字世界上,也可以跟朋友一起过春节,抢红包,刷视频
见证过不少同行灾难发生的他,认为这份值守不可或缺:
你不知道风险什么时候会发生但SRE可以真正降低遇到风险的可能性
从其他岗位转到SRE的石胜兵,虽然调侃了一下这个身份在春节中的特殊性:
SRE算是华为云背后的角色我们其实很少在像春节这样的节日中露面,因为真出现的时候,往往都不是一些好事
但这份工作却让他感受到新的春天:
我在华为工作了二十年,来这个团队一年半原以为上个岗位就是职业生涯的最后一个,现在感觉新的春天到来
一方面体现在SRE本身,它是华为云最年轻的团队。
另一方面,伴随着行业快速成长,年轻的SRE正成为云服务质量保障的中坚力量。
其实这种对数字生活的保障,也并非孤例。
平时出行的电子公交卡,一键打车,吃饭时的数字支付,生病时的在线预约,再到网购和线上游戏聚会,回想起来我们已经离不开数字化的生活。
而若再往前看一些,从最早提出的智慧地球,到后来AI发展带起的全真互联网,再到现在的元宇宙,行业热词一直与数字世界息息相关。
具体到技术上,包括这几年数字人的爆发,伴随着AI发展再度被带起来的XR设备也在说明,我们的生活确实正不知不觉地与数字世界发生融合。
在数字世界中,云服务反而从一种新兴的技术,成为了不可或缺的基础设施。
换而言之,我们的一切互联网服务和数字产品,最终都由云带来,并运行在云上,甚至我们在成为数字虚拟世界的一份子时,本身也会被加载到云中。
传统物理世界的水电,桥路和房子,被还原到数字世界中去后,也不过是存储在云上的一些数据。
在这种趋势之下,云服务的稳定性就变得和数字世界中的基建稳定性一样重要,反映到春节中则更是如此。
如今的特殊时期,我们反而比以往更依赖于数字春节的保障。
而这一次,华为云的攻防演练和红蓝对抗披露,不仅是一次先进经验和机制的分享,更提醒我们关注日益依赖的「数字世界的基础设施」。
。