如何提升系统韧性,强化保护措施,成为云厂商们都需要思考的问题
4月14日,腾讯云就4月8日发生的故障事件进行了详细的复盘和情况说明。
在4月8日下午3点23分,腾讯云团队接收到告警信息,显示云API服务出现异常。不久之后,腾讯云的工单系统、售后服务群组以及微博等社交平台上出现了大量用户反馈,表示无法登录腾讯云控制台。经过详细的问题定位,腾讯云团队发现这一问题正是由于云API服务异常导致的。
云API是云上统一的开放接口集合,客户可以通过API以编程方式管理和操控云端资源,云控制台通过组合云API提供交互式的网页功能。
而事故根本原因在于腾讯云版本变更过程中,没有有效执行沙箱验证和预案演练,暴露了在变更管理上的不足,最终导致云API服务新版本向前兼容性考虑不够和配置数据灰度机制不足的问题。
此次云API服务异常不仅影响了用户的登录,还导致部分依赖该服务的产品功能失效,包括云函数、文字识别、微服务平台、音频内容安全以及验证码等公有云服务。
故障发生后,腾讯云方面表示,依赖云API提供产品能力的部分公有云服务,也因为云API的异常出现了无法使用的情况,比如云函数、文字识别、微服务平台、音频内容安全、验证码等。此次故障一共持续了近87分钟,期间共有1957个客户报障。
腾讯云方面称,这次故障中客户已经配置好的服务器等IaaS资源,包括已经部署运行的业务,没有受到云API异常的影响。其他以非云API方式提供服务的PaaS和SaaS服务,处于正常服务的状态。
但是,使用API提供的服务类产品(需要“酒店前台服务“)有不同程度的影响,比如腾讯云存储服务调用当天有明显下滑。期间售后团队协助部分客户做了业务容灾预案的实施,将受影响服务做调度以快速恢复客户的业务服务。
腾讯云方面表示将从提升系统韧性、强化变更管理与保护措施、增强故障响应与沟通能力三方面进行改进。