逢泽 FengZ - 用自己喜欢的方式过这一生

钱去哪了

用户点击生成。系统检查积分。扣除积分。创建任务。

看起来完美。

但如果用户同时点击100次会发生什么？

第一个时间窗口：并发请求之间

💡 Click the maximize icon to view in fullscreen

每个请求都看到同样的积分余额。

每个请求都认为积分充足。

每个请求都成功扣除积分。

结果：用户用10积分，创建了100个任务。

问题不在用户的手速。问题在时间窗口。

从"查询余额"到"扣除积分"之间，存在一个时间窗口。在这个窗口里，其他请求可以插队。

让操作不可分割

解决方案不是让系统更快。是让操作不可分割。

CREATE FUNCTION create_job_and_charge_credits(
  p_user_id UUID,
  p_credit_cost INTEGER
) RETURNS TABLE(job_id UUID, success BOOLEAN) AS $
DECLARE
  v_current_credits INTEGER;
BEGIN
  -- 🔒 行级锁定：FOR UPDATE
  SELECT video_credits INTO v_current_credits
  FROM profiles
  WHERE id = p_user_id
  FOR UPDATE;

  -- 检查积分
  IF v_current_credits < p_credit_cost THEN
    RETURN QUERY SELECT NULL::UUID, FALSE;
    RETURN;
  END IF;

  -- 扣除积分 + 创建任务（原子操作）
  UPDATE profiles
  SET video_credits = video_credits - p_credit_cost
  WHERE id = p_user_id;

  INSERT INTO ai_generations (user_id, credits_charged, status)
  VALUES (p_user_id, p_credit_cost, 'pending')
  RETURNING id INTO v_job_id;

  RETURN QUERY SELECT v_job_id, TRUE;
END;
$ LANGUAGE plpgsql;

一个函数。一次调用。没有时间窗口。

FOR UPDATE 的作用：当第一个请求锁定用户行时，其他99个请求必须等待。等待第一个请求完成。等待积分被正确扣除。

不是预防并发。是让并发变得安全。

第二个时间窗口：回调永不到达

任务提交给第三方厂商。等待回调通知结果。

看起来合理。

但如果回调永远不来会发生什么？

💡 Click the maximize icon to view in fullscreen

积分已扣除。任务状态"处理中"。永远处理中。

这不是小概率事件：

网络分区
厂商Bug
配置错误

回调可能永远不来。

主动验证而非被动等待

解决方案不是更可靠的回调。是主动验证。

// Cron: 每30分钟执行
async function cleanZombieTasks() {
  const THRESHOLD = 30; // 分钟
  const cutoffTime = new Date(Date.now() - THRESHOLD * 60 * 1000);

  // 查询僵尸任务
  const zombieTasks = await database
    .select('*')
    .from('ai_generations')
    .whereIn('status', ['submitted_to_vendor', 'processing'])
    .where('updated_at', '<', cutoffTime);

  for (const task of zombieTasks) {
    // 主动查询厂商状态
    const vendorStatus = await queryVendorStatus(task.vendor_task_id);

    if (vendorStatus.found) {
      // 厂商有记录，更新状态
      await updateTaskStatus(task.id, vendorStatus.status);
    } else {
      // 厂商也找不到，退款
      await markTaskAsFailed(task.id, 'vendor_lost_task');
      await refundCredits(task.user_id, task.credits_charged);
    }
  }
}

不依赖对方的通知。

每30分钟，系统主动查询超时任务。找到任务就更新状态。找不到任务就退款。

不是相信承诺。是主动验证。

两个时间窗口的共同点

都是对"理想情况"的过度信任。

第一个窗口：相信"检查"和"扣除"之间没有人插队。

第二个窗口：相信第三方一定会通知。

时间窗口不是Bug。是系统设计的必然结果。任何需要"多步操作"的流程，都存在时间窗口。任何依赖"外部通知"的系统，都可能等不到通知。

资源管理的本质

资源不会消失。只会泄露。

泄露有两个来源：

外部：用户的并发请求
内部：系统自身的缺陷

解决方案不是预防所有问题。是确保问题发生时，资源能被正确回收。

原子操作：把多步变一步，消除外部时间窗口。把"查询"和"扣除"合并成一个不可分割的操作。

主动清理：不等通知，主动验证，消除内部时间窗口。不依赖回调，定期扫描僵尸任务。

关于原子操作的更深入讨论，可以参考 rpc-atomic-operations。

关于幂等性检查如何防止重复扣费，参考 idempotency-check。

最后

系统设计不是写出"正常情况下工作"的代码。

是写出"异常情况下也能恢复"的代码。

不是预防所有失败。是确保失败可恢复。

资源泄露是必然的。让资源可回收，才是关键。

资源不会消失，只会泄露

钱去哪了

第一个时间窗口：并发请求之间

让操作不可分割

第二个时间窗口：回调永不到达

主动验证而非被动等待

两个时间窗口的共同点

资源管理的本质

最后

Related Posts

实现幂等性处理，忽略已处理的任务

监听 Redis 连接事件 - 让不可见的脆弱变得可见

RPC函数的原子化处理

RPC函数

幂等性检查

管理后台需要两次设计

告警分级与响应时间

文档标准是成本计算的前提

BullMQ 队列

BullMQ Worker

配置不会自动同步

CRUD 操作

数据库参数国际化：从 13 个迁移学到的设计原则

Stripe Webhook中的防御性编程

双重验证：Stripe生产模式的防御性切换

端到端 Postback 模拟测试

错误隔离

在运行的系统上生长新功能

单例模式管理 Redis 连接

缺失值的级联效应

监控观察期法

Props Drilling

队列生产者实例的工厂函数

队列、可靠性与系统边界

使用Secret Token验证回调请求的合法性