2026年5月 1 分钟阅读
接缝即系统
可靠性很少是在服务内部丢失的,而是在边界处丢失的——所以设计的精力应当放在那里。
Distributed SystemsReliability
我写过的每一份事故复盘,最终都指向某个边界:放大了负载的重试、无法组合的超时、悄悄乱序的队列。每个服务内部的代码都没问题,系统是在服务之间的缝隙里失败的。
我们把大部分设计精力花在「方框」上,几乎没花在「箭头」上。但有趣的故障恰恰住在箭头里——部分失败、背压、时钟偏移、惊群。
一个有用的纪律:为架构图里的每一条箭头写下,当它变慢、当它宕机、当它撒谎时会发生什么。如果三者你答不全,你就找到了下一个设计任务。
评论
正在加载评论…