OKHK 🐟
一次 AWS DNS 故障如何级联瘫痪半个互联网
官方报告:https://aws.amazon.com/cn/message/101925/
根本原因分析

DynamoDB的DNS管理系统:此次中断的根本原因是DynamoDB的DNS管理系统中的竞争条件。当多个DNS Enactor组件在同时更新DNS记录时,其中一个组件错误地覆盖了另一个组件更新的DNS计划,导致DynamoDB端点的IP地址被删除,进而导致服务中断。

EC2和NLB问题:EC2实例和NLB的问题与DynamoDB DNS故障直接相关。EC2的Droplet管理系统依赖DynamoDB进行状态管理,而NLB的健康检查依赖正确的网络状态更新,二者都在故障期间受到影响。

修复和改进措施

DynamoDB:已禁用DNS管理自动化,并将修复竞争条件,并增加额外保护措施以防止类似问题重现。

NLB:将引入容量限制机制,以减少单个NLB在健康检查失败时的负载影响。

EC2:将增加新的测试套件来模拟DWFM恢复流程,并改进请求限流机制,确保在高负载情况下能够平稳恢复。

Lambda和其他服务:针对AWS Lambda和其他依赖服务,将优化流量管理和故障恢复流程,减少未来的影响。
 
 
Back to Top
OKHK