第8章 打造平台稳定性能力
当阿里巴巴集团的核心业务都基于共享服务体系建设后,这些服务中心是否具备业务能力的持续扩展,以满足阿里巴巴不停地有新业务的接入?这些服务是否在每天几千亿的服务调用中保持稳定的服务能力?在万众瞩目的双11活动当天,如何确保整个平台平稳如山地渡过访问峰值?在出现机房断电或通信电缆故障的情况下,如何保障平台持续稳定运行?本章将介绍当这些难以想象的各种复杂场景出现后,阿里集团如何打造共享服务中台的平台稳定性能力。
在过去10多年的时间里,阿里巴巴投入了集团大量的精英人才用于提升淘宝、天猫平台服务的稳定性,正是有了多年来上万名阿里技术人员的持续创新和技术沉淀,在一系列秒杀大促,特别是天猫双11这样称为现象级的电商大促活动中,打造出了今天大家所看到的可轻松应对天猫双11的平台稳定性体系。
在整个稳定性体系中,所包含的范围非常广泛,从机房的布线、网络通信、硬件部署、应用架构、数据容灾等方面都与之相关。从共享服务中台的角度,则更多的是从应用架构设计和中间件平台的维度对平台的稳定性实现更精细化的管控和保障。本章就是从这个角度介绍阿里巴巴中间件团队多年来为了提升淘宝和天猫平台的稳定性所作出的一系列技术创新和成果,包括限流和降级、流量调度、业务开关、容量压测和评估、全链路压测平台、业务一致性平台等。
