跳到主要内容
博客
2026年5月 1 分钟阅读

接缝即系统

可靠性很少是在服务内部丢失的,而是在边界处丢失的——所以设计的精力应当放在那里。

Distributed SystemsReliability

我写过的每一份事故复盘,最终都指向某个边界:放大了负载的重试、无法组合的超时、悄悄乱序的队列。每个服务内部的代码都没问题,系统是在服务之间的缝隙里失败的。

我们把大部分设计精力花在「方框」上,几乎没花在「箭头」上。但有趣的故障恰恰住在箭头里——部分失败、背压、时钟偏移、惊群。

一个有用的纪律:为架构图里的每一条箭头写下,当它变慢、当它宕机、当它撒谎时会发生什么。如果三者你答不全,你就找到了下一个设计任务。

评论

正在加载评论…