通过系统和混沌测试实现云弹性

经过Venkatesha n.Iyengar,Shishank Gupta,Sundar Gomathi Vallabhan,Arvind Sundarraman,乍得瓦特 2020年8月|文章| 12分钟阅读|通过电子邮件发送本文|下载
现代云系统使公司能够平稳地切换到工作 - 从家庭安排。在系统性和混乱的方式中不断测试云将有助于公司在停机时间断开连接时避免云失败。
在Covid-19时营造资本管理

专业人士幸运地避难到家中,从家里工作可以感谢云计算在Covid-19大流行期间它们的能力转移如此无缝。

想象一下没有云的封锁杂货店和在线订单系统将上下波动,依赖于它们自己数据中心的服务器。流媒体服务在晚餐时间和其他需求高峰后的一小时内会出现停顿和停顿。重要的个人和职业关系将局限于语音通话,而不是丰富的社交媒体、视频会议或协作应用程序。许多公司将会关门大吉。

现在想象一个具有云失败的Covid诱导的工作从家庭场景。远程工作的团队会分崩离析。交货将被争抢和丢失。更重要的是,已经遇到巨大的呼叫卷的紧急服务将看到更有的工具来管理它们来管理它们。全球医学研究团队,目前在新的冠状病毒中分享研究和数据将彼此失去接触,延迟和减慢治疗和治愈Covid-19病毒的努力。

似乎云的建立正是为了帮助我们摆脱目前的困境。但实际上,云计算的概念和基础系统可以追溯到50多年前。在过去的20年里,流行的、实用的云应用工具发展得更加迅速,从Salesforce.com的早期迭代开始,到最近谷歌的G Suite和微软的Office 365等基于网络的企业应用程序。1这是这些相对较新的工具的简单性,导致了他们广泛的采用。但是这种表面层掩盖了必须完全理解和测试的令人难以置信的复杂的结构,以便保持和测试。

为避免云失败,公司必须通过以连续和混乱的方式测试它来构建弹性进入云结构。弹性代表计算系统的标准 - 超越稳定,可用性和可靠性。

在迁移到云服务时,公司应该逐步测试系统的稳定性、可用性、可靠性,以及最终的弹性。

在商业计算的早期,IT经理的目标是稳定,但计算机和服务器经常崩溃。因此,技术管理人员定期重启终端或服务器。可用性或系统正常运行时间可以通过在不同位置的不同服务器上分布应用程序并在这些服务器之间平衡负载来管理。可靠性要求系统既可用又能正常工作。弹性包括对可能出现问题的预期,以及对系统本身进行了结构和测试,以应对和修复出现问题的情况。2随着公司迁移到云服务,他们应该测试他们的新系统的所有这些属性:稳定性、可用性、可靠性和弹性。

图1所示。弹性位于IT正常运行时间层次结构的顶端。

弹性位于IT正常运行时间层次结构的顶端

传统测试从根本上确保了关键应用程序已经在云中迁移或设置并正常工作。这是确保云系统满足设计考虑并且不改变应用程序执行方式的一种很好的且经过验证的方法。

然而,常规测试不会探讨意外情况。为此,先进的操作转向混沌测试,这是通过Netflix在2011年其迁移到云中的技术开创的技术。3.混沌测试创造了湍流的情况,将带来失败点,并影响设计。

现代云系统将硬件和软件带入如此复杂和流畅的方式,即“检查您的工作”测试永远是足够的。通过从事系统和混乱的测试,公司可以在云中和整个技术系统中培养更大的弹性。

显示应变的云彩

向工作转移到家中促使对云的需求大规模加剧。在4月季度,微软报告了云云产品的收入增长了50%。4.一旦企业、行业和社会转向云计算系统,云故障将造成大范围的破坏。为了避免这种情况,迁移到云的公司必须测试系统到它们的断点,并使用这些测试的结果重新定义和重新设计它们的系统。

在大流行期间,弹性云系统的临界值降低到两点。首先,即使他们在线交通中出现意外激增,它们必须顺利和无故障。其次,从家中工作的大多数人的转变乘以网络防火墙外的端点数量。弹性和彻底测试的系统将能够以安全,无缝和稳定的方式管理额外的拥挤流量。

云现在紧张。IBM于2020年6月9日持续了大约两个小时的云中断。网络监测公司的数千世纪被告知技术新闻网站激烈的电信,中断的全球性质表明了控制平面问题而不是纤维剪辑或路由器等物理失败失败。5.

欧洲微软的天蓝色云数据中心容量表明了公司转向远程工作和使用其沟通平台,包括球队气球。为了减轻压力,微软限制访问自由和试验,以限制现有客户的性能问题的影响,并确保卫生保健等紧急和关键服务获得优先权。

6月29日,美国东海岸部分地区的Kubernetes平台和网络服务中断了几个小时。这次宕机影响的服务范围包括谷歌云网络、谷歌计算引擎和Kubernetes,宕机时间从少于90分钟到4小时46分钟不等。6.

测试如何导致弹性

混沌测试不是替代实际系统测试 - 然而混乱有助于发现在开发或测试期间通常不明显的系统异常。这些测试在七个系统中的任何一个中引入了异常,以测量其对整个系统的影响。遵循Netflix的Chaos Monkey套件的成功,软件工程师开发了额外的工具集,如Gremlin,可以利用混沌工程。混沌测试需要仔细的规划和设计,必须与整个IT组织协调进行。

虽然猴子和Gremlins唤起了一种狂野和不受控制的元素,但可以在例如GameSay测试等例程或计划的情况下控制软件工具版本。Gameayay测试涉及模拟类似Covid的情况,其中突然90%的员工在家或客户正在同时访问移动应用程序。

这涉及到整个工程团队的参与,并且通常尝试在类似产品的环境中大规模运行。测试人员捕获一个事后分析报告来记录学习和检查行为。

为了实现弹性,IT经理必须找到在正常的“快乐路径”测试场景中没有暴露的漏洞。通过执行一组精心计划的灾难,寻求弹性可以让我们一瞥系统的性能和可恢复性。这样的灾难序列可能包括:

  • 拉下网络连接10秒钟
  • 脱机服务或服务器
  • 窒息中间件和观察异常

微软Azure部门正在小规模和大规模测试这些系统。这个测试是有价值的单位,首席技术官马克·若斯诺维奇在他2019年写博客的重要性将一个新的质量工程团队工作与现有网站可靠性工程团队在测试失败更严格和注入故障,确保系统的可靠性。7.

图2.在过去的19个月内云中断的抽样。

在过去的19个月里,云中断的抽样

Russinovich进一步描述了一个愿景,允许客户利用将失败注入Azure的机制,并验证他们自己的设置的弹性。“我们的计划是最终向客户提供这些故障注入服务,这样他们就可以在自己的应用程序和服务上执行同样的验证,”他说。

如何开始测试

企业刚刚开始迁移到云,必须首先学习并选择适合最佳的服务模型。寻求将整个工作量迁移到云的公司应选择基础架构 - AS-Service(IAAS)选项。这允许团队在云上快速协调其测试环境,并快速设置存储,备份和恢复系统。

例如,领先的欧洲银行利用AWS将90%的测试环境移动到云以进行更快的释放周期,并最大限度地减少等待时间。在IAAS中,虽然云服务提供商负责云基础架构的运作,但该公司负责确保正确配置服务。

如果企业需要快速创建应用程序而无需管理底层基础架构所需的努力,它应该选择平台 - AS-Service(PAAS)选项。公司利用PAAS选项来构建挖掘数据的应用和开发洞察的开发分析。例如,领先的时尚零售商利用Google云平台建立一个分析模型,有助于保持最佳和即时库存。

云迁移在很多方面给组织带来了好处,但是公司还必须考虑哪些应用程序和系统应该保留在本地,或者放在云的边缘。

要确定这一点,请考虑:

  • 应用程序的生命周期 - 应该保留日落的那些系统的内部设施。
  • 根据规定或为了遵守规定而需要的封闭的应用程序和数据应保留在现场。

例如,通过在云上重新托管应用程序和系统来实现其技术景观的多国保险公司。它保留了在维护现有产品的旧保险系统。客户和产品的新船上直接发生在云端。

在云中运行,如许多现代商业实践是一个循环,而不是线性进展。

已经在云中或部分迁移的组织必须花时间来理解它们的云服务模型。这可能会引发一个问题:这种模式在未来几年适合我的组织吗?

在云中运行时,这些公司可以开始规划Gameayay或混沌测试方案来衡量其系统的弹性。在这样做时,公司应该设置一个客观和时间窗口来运行测试。然后,这些测试的结果有助于通知其云设置的要求设计阶段。

图3。健壮的云测试有四个步骤。

健壮的云测试有四个步骤

混乱测试侧重于打破右边(在生产或类似于生产的系统上诱发故障)来设计一个更好的左边(基础设施环境)。云服务让无数的工作人员暂时从办公室转移到其他安排。经过良好测试的云计算系统拥有许多永久性的好处,这源于它们的弹性本质。

通过虚拟云上下文中的所有系统和应用,未来的数字转换将变得更加流畅。亚博比分直播无法失败的系统,例如远程监控,增强现实,虚拟现实和地理围栏将依靠强大的云系统进行交付。

正确测试的云还可以更容易地处理需求尖峰,并将处理应用程序或快速定位开关或劳动力扩展的病毒采用。

使用混乱和站点可靠性工程在企业中以以下形式提供弹性:

  • 云和基础设施弹性。
  • 通过连续监控数据弹性。
  • 通过将安全性与治理和控制机制整合,弹性网络安全。
  • 表示层弹性,确保用户界面在高压力条件下保持稳定。

恒定,系统和混沌测试增加了云基础设施的恢复力

为了变得有弹性,公司必须创建有弹性的IT系统。这些系统将部分或全部依赖于云基础设施。一致的、创造性的测试揭示了云系统的真实状态,并展示了如何改进它们。

参考文献
  1. 云计算的历史,Arif Mohamed,计算机每周,2018年4月9日。
  2. 可用性VS可靠性VS耐久性VS弹性2020年4月23日。
  3. Netflix Simian军队奈飞科技博客,2011年7月19日。
  4. Microsoft Cloud强度推动第四季度结果2020年7月22日,微软公司。
  5. IBM Cloud周二遭受了广泛的停用,但现在已经启动并运行了服务,迈克罗克,激烈的电信,2020年6月10日。
  6. 谷歌云在电源失败下部分蒸发了几个小时:两个美国东海岸区嘎嘎作响,寄存器,6月29日,2020年。
  7. 推进Microsoft Azure可靠性,微软Azure博客,Mark Russinovich,2019年7月15日。