4月8日,腾讯云出现故障,有不少客户都在网上进行了腾讯云控制台登陆不上的反馈。经过故障定位发现,客户登录不上控制台正是由云API异常所导致。近日,腾讯云官方进行了问题复盘,公布了整个处理过程,如下:
1、15:23,监测到故障,立即执行服务的恢复,同时进行原因的排查;
2、15:47,发现通过回滚版本没能完全恢复服务,进一步定位问题;
3、15:57,定位出故障根因是配置数据出现错误,紧急设计数据修复方案;
4、16:02,对全地域进行数据修复工作,API服务逐地域恢复中;
5、16:05,观测到除上海外的地域API服务均已恢复,进一步定位上海地域的恢复问题;
6、16:25,定位到上海的技术组件存在API循环依赖问题,决定通过流量调度至其他地域来恢复;
7、16:45,观测到上海地域恢复了,此时API和依赖API的PaaS服务彻底恢复,但控制台流量剧增,按九倍容量进行了扩容;
8、16:50,请求量逐渐恢复到正常水平,业务稳定运行,控制台服务全部恢复;
9、17:45,持续观察一小时,未发现问题,按预案处理过程完毕。
故障的原因是云API服务新版本向前兼容性考虑不够和配置数据灰度机制不足的问题。
从这次故障及问题复盘中,我们值得注意的有三点。一是要提升系统韧性,二是要强化变更管理与保护措施,三是要增强故障响应与沟通能力。
服务器对业务影响很大,一定要重视。拥有广泛的全球网络覆盖,提供专业的企业网络解决方案,在业内有口皆碑。根据企业的细分需求,制定具有针对性的IDC数据中心托管方案。