指数退避超时 - 防止无限重试循环

November 5, 2025

3 min read

Zekari

系统设计可靠性工程技术哲学

服务器返回错误。你的代码立即重试。

再次失败。再次重试。

继续失败。继续重试。

这看起来像是坚持，实际上是在制造灾难。

立即重试的陷阱

API 调用失败了。也许是网络抖动，也许是服务器过载。

最直观的处理方式：立即重试。失败了就再来一次，不行就再来一次。

async function fetchData() {
  let retries = 0
  while (retries < 10) {
    try {
      return await api.call()
    } catch (error) {
      retries++
      // 立即重试
    }
  }
  throw new Error('Failed after 10 retries')
}

这代码有逻辑，有限制。但它缺少一个关键的东西：时间。

1. 雪崩效应

服务器过载导致请求失败
所有客户端立即重试
服务器压力瞬间翻倍
更多请求失败，更多重试
系统完全崩溃

2. 资源浪费

CPU 在无意义的循环中消耗
网络带宽被失败请求占用
连接池被阻塞
其他正常请求无法执行

3. 无法自愈

服务器需要时间恢复
但重试不给它这个时间
就像一个摔倒的人还没站稳，又被推倒
系统永远无法恢复正常

失败后立即重试，是人的本能反应。但本能不总是对的。

时间的价值

有些失败，不是代码的问题，而是时机的问题。

服务器过载，需要几秒钟来处理积压的请求。数据库连接池满了，需要等待其他连接释放。

这些失败，不是错误，而是系统在说：「等一下，我需要时间。」

如果你不给它时间，只是一遍遍地敲门，门永远不会开。

指数退避的核心思想很简单：每次失败后，等待的时间翻倍。

async function fetchDataWithBackoff() {
  let retries = 0
  let delay = 100 // 初始延迟 100ms

  while (retries < 10) {
    try {
      return await api.call()
    } catch (error) {
      retries++

      // 等待，然后延迟时间翻倍
      await sleep(delay)
      delay *= 2

      // 100ms, 200ms, 400ms, 800ms, 1.6s, 3.2s...
    }
  }
  throw new Error('Failed after 10 retries')
}

💡 Click the maximize icon to view in fullscreen

第一次失败，等 100 毫秒。也许只是网络抖了一下。

第二次失败，等 200 毫秒。问题可能稍微严重一点。

第三次失败，等 400 毫秒。给系统更多时间。

每次失败，延迟翻倍。这不是在放弃，而是在给系统喘息的空间。

不是软弱，是智慧

有人会觉得，增加延迟是在「认输」。用户等待时间变长了，这不是体验变差了吗？

但反过来想：如果不增加延迟，系统会崩溃。所有用户的所有请求都会失败。

指数退避是在灾难和等待之间做选择。它选择让少数用户多等一会儿，而不是让所有用户的请求全部失败。

这是一种妥协，但也是唯一可行的妥协。

为什么需要随机性？

如果一千个客户端在同一时刻遇到失败，它们会在同一时刻开始重试。第二次重试也会在同一时刻发生。

这叫「惊群效应」（Thundering Herd）。

解决方法：在延迟时间上加一点随机性。

// 不是精确的 200ms，而是 150-250ms 之间的随机值
const jitter = delay * (0.5 + Math.random() * 0.5)
await sleep(jitter)

这样，重试请求会分散开来，而不是集中爆发。

完整的实现：

async function fetchWithExponentialBackoff(maxRetries = 5) {
  let retries = 0
  let baseDelay = 100

  while (retries < maxRetries) {
    try {
      return await api.call()
    } catch (error) {
      retries++

      if (retries >= maxRetries) {
        throw new Error(`Failed after ${maxRetries} retries`)
      }

      // 指数退避 + 随机抖动
      const exponentialDelay = baseDelay * Math.pow(2, retries - 1)
      const jitter = exponentialDelay * (0.5 + Math.random() * 0.5)
      const maxDelay = 30000 // 最长等待 30 秒
      const delay = Math.min(jitter, maxDelay)

      await sleep(delay)
    }
  }
}

关键点：