滑动窗口限流:我们在 API Gateway 里是怎么做的

一个真实项目的限流实现记录。不用 Redis,不用令牌桶,纯内存 Go 实现,200 行代码搞定 per-user 限流。


背景

我们有一个多租户的 API Gateway(Go + Gin),后面挂了 4 个业务后端。每个用户通过 API Key 鉴权,不同用户有不同的请求频率限制(RPM,Requests Per Minute)。

需求很简单:

  • 每个用户独立限流,互不影响
  • 限额从数据库读,管理员随时可调
  • 超限返回 429,不排队不等待
  • 不引入 Redis(单机部署,没必要)

为什么选滑动窗口

常见的限流算法有四种:

算法 优点 缺点
固定窗口 实现最简单 窗口边界有突发问题
滑动窗口 无突发、精确 内存存时间戳
漏桶 匀速输出 不适合突发合理的场景
令牌桶 允许突发 实现复杂

我们选滑动窗口,原因:

  1. 不想让用户在窗口边界打出双倍请求(固定窗口的经典问题)
  2. 不需要匀速(用户打 API 本来就是突发的,只要总量不超就行)
  3. 内存占用极小(每个用户最多存 RPM 个时间戳,20 RPM = 160 字节)

固定窗口的突发问题

先说清楚为什么不用固定窗口。

假设限制 20 RPM,固定窗口按整分钟重置:

时间线:
|-------- 15:20:00 --------|-------- 15:21:00 --------|
                            ↑ 计数器重置

15:20:58  用户打了 20 个请求 → 计数=20,刚好满,全部放行
15:21:01  用户又打 20 个请求 → 新窗口!计数=20,又满,全部放行

结果:3 秒内通过了 40 个请求。限流形同虚设。

滑动窗口怎么解决

滑动窗口不按整分钟切割,而是永远看"当前时刻往前推 60 秒"这个窗口

15:21:01 来了一个请求
往回看 60 秒 → 15:20:01 到 15:21:01
这段时间内已经有 20 个了(15:20:58 那批)
→ 拒绝!

必须等到 15:20:58 那批"滑出"窗口(到 15:21:58 之后),才能继续请求。

没有边界突发问题。任何 60 秒的滑动窗口内,最多只有 RPM 个请求。

数据结构

核心就是一个 map,key 是用户 ID,value 是最近 60 秒内的请求时间戳数组:

type UserRateLimiter struct {
    mu      sync.Mutex
    windows map[string]*slidingWindow
}

type slidingWindow struct {
    timestamps []time.Time
    rpm        int
}

核心算法:Allow

每次请求进来,做四件事:

func (rl *UserRateLimiter) Allow(userID string, rpm int) bool {
    if rpm <= 0 {
        return true // 0 = 不限流(VIP 用户)
    }

    rl.mu.Lock()
    defer rl.mu.Unlock()

    now := time.Now()
    cutoff := now.Add(-time.Minute) // 窗口起点:1 分钟前

    w := rl.windows[userID]
    if w == nil {
        w = &slidingWindow{rpm: rpm}
        rl.windows[userID] = w
    }
    w.rpm = rpm // 动态更新限额(管理员改了立即生效)

    // 第一步:清理过期的时间戳
    valid := w.timestamps[:0]
    for _, ts := range w.timestamps {
        if ts.After(cutoff) {
            valid = append(valid, ts)
        }
    }
    w.timestamps = valid

    // 第二步:检查是否超限
    if len(w.timestamps) >= rpm {
        return false // 超了,429
    }

    // 第三步:记录本次请求
    w.timestamps = append(w.timestamps, now)
    return true
}

画个图:

用户 "东东",RPM = 3

时间线:
00:00 ─────────────────────────────────── 01:00 ─────── 01:15
      │                                    │
      ├─ 请求1 (00:10) ✅ [00:10]
      ├─ 请求2 (00:25) ✅ [00:10, 00:25]
      ├─ 请求3 (00:40) ✅ [00:10, 00:25, 00:40]
      ├─ 请求4 (00:50) ❌ 已有3个,拒绝!
      │
      │  ... 时间过去 ...
      │
      └─ 请求5 (01:15)
           cutoff = 01:15 - 60s = 00:15
           清理:00:10 < 00:15 → 扔掉
           剩下:[00:25, 00:40]
           2 < 3 → ✅ 放行!
           更新:[00:25, 00:40, 01:15]

在 Gateway 里怎么用

我们的 Gateway 鉴权流程:

请求进来
  → 提取 Bearer token
  → 调用户服务 /internal/check(返回 user_id + balance + rate_limit)
  → 余额检查(≤0 → 403)
  → 限流检查(Allow(user_id, rate_limit) → false → 429)
  → 放行,转发到后端

关键点:rate_limit 是从用户服务实时拿的,不是写死在代码里。管理员在后台改了某个用户的 RPM,下一次请求就用新值。不需要重启 Gateway。

// auth.go 中间件
func (ua *UserServiceAuth) Middleware() gin.HandlerFunc {
    return func(c *gin.Context) {
        // ... 鉴权逻辑 ...

        // 限流检查
        if !ua.rateLimiter.Allow(userID, result.RateLimit) {
            c.AbortWithStatusJSON(429, gin.H{
                "error":       "rate limit exceeded",
                "rate_limit":  result.RateLimit,
                "retry_after": 60,
            })
            return
        }

        c.Next()
    }
}

429 响应体里带了 rate_limitretry_after,客户端知道自己的限额是多少、该等多久。

内存管理:防泄漏

如果用户请求一次后再也不来了,他的时间戳数组会一直留在内存里。虽然数组会被清空(过期的都扔了),但 map entry 还在。

解决:后台每 5 分钟扫一次,超过 5 分钟没请求的用户直接从 map 里删掉:

func (rl *UserRateLimiter) cleanup() {
    ticker := time.NewTicker(5 * time.Minute)
    defer ticker.Stop()
    for range ticker.C {
        rl.mu.Lock()
        now := time.Now()
        cutoff := now.Add(-5 * time.Minute)
        for uid, w := range rl.windows {
            if len(w.timestamps) == 0 ||
               w.timestamps[len(w.timestamps)-1].Before(cutoff) {
                delete(rl.windows, uid)
            }
        }
        rl.mu.Unlock()
    }
}

NewUserRateLimiter() 时用 go rl.cleanup() 启动这个后台 goroutine。

并发安全

整个 Allow 方法在 sync.Mutex 锁内执行。为什么不用 sync.RWMutex

因为 Allow 既读(检查数量)又写(追加时间戳),每次调用都是写操作,RWMutex 没有意义。单个 Mutex 最简单,性能也够(锁内操作是纯内存数组操作,微秒级)。

内存占用分析

每个时间戳:8 字节(time.Time 内部是 int64)
每个用户最多存 RPM 个时间戳

RPM=20 的用户:20 × 8 = 160 字节
RPM=60 的用户:60 × 8 = 480 字节

1000 个活跃用户(RPM=20):160 KB
10000 个活跃用户:1.6 MB

完全不是问题。

实际效果

测试:把某用户 RPM 设为 3,快速打 5 个请求:

$ for i in 1 2 3 4 5; do
    echo -n "$i:";
    curl -s -o /dev/null -w "%{http_code} " -H "Authorization: Bearer $KEY" $URL/health;
  done

1:200 2:200 3:200 4:429 5:429

前 3 个放行,第 4、5 个被拒。等 60 秒后窗口滑过,又能打了。

跟 Redis 方案的对比

维度 我们的方案(内存) Redis 方案
依赖 需要 Redis 实例
延迟 微秒级(内存操作) 毫秒级(网络 RTT)
一致性 单机精确 分布式精确
多实例 ❌ 每个实例独立计数 ✅ 共享计数
适用场景 单机 / 少量实例 多实例水平扩展
运维成本 需要维护 Redis

我们是单机部署,不需要多实例共享计数,所以内存方案完全够用。如果以后要水平扩展,再换 Redis 也就是把 Allow 方法的实现换掉,接口不变。

完整代码

package main

import (
    "sync"
    "time"
)

type UserRateLimiter struct {
    mu      sync.Mutex
    windows map[string]*slidingWindow
}

type slidingWindow struct {
    timestamps []time.Time
    rpm        int
}

func NewUserRateLimiter() *UserRateLimiter {
    rl := &UserRateLimiter{
        windows: make(map[string]*slidingWindow),
    }
    go rl.cleanup()
    return rl
}

func (rl *UserRateLimiter) Allow(userID string, rpm int) bool {
    if rpm <= 0 {
        return true
    }

    rl.mu.Lock()
    defer rl.mu.Unlock()

    now := time.Now()
    cutoff := now.Add(-time.Minute)

    w, ok := rl.windows[userID]
    if !ok {
        w = &slidingWindow{rpm: rpm}
        rl.windows[userID] = w
    }
    w.rpm = rpm

    valid := w.timestamps[:0]
    for _, ts := range w.timestamps {
        if ts.After(cutoff) {
            valid = append(valid, ts)
        }
    }
    w.timestamps = valid

    if len(w.timestamps) >= rpm {
        return false
    }

    w.timestamps = append(w.timestamps, now)
    return true
}

func (rl *UserRateLimiter) cleanup() {
    ticker := time.NewTicker(5 * time.Minute)
    defer ticker.Stop()
    for range ticker.C {
        rl.mu.Lock()
        now := time.Now()
        cutoff := now.Add(-5 * time.Minute)
        for uid, w := range rl.windows {
            if len(w.timestamps) == 0 ||
               w.timestamps[len(w.timestamps)-1].Before(cutoff) {
                delete(rl.windows, uid)
            }
        }
        rl.mu.Unlock()
    }
}

总结

滑动窗口限流的核心就是:存时间戳,数数量,超了就拒

适合的场景:

  • 单机部署
  • per-user 限流
  • 不想引入外部依赖
  • RPM 级别的限流(不是 QPS 万级)

不适合的场景:

  • 多实例需要共享计数 → 用 Redis
  • 超高 QPS(百万级)→ 用令牌桶或漏桶
  • 需要精确到毫秒级的限流 → 用令牌桶

对我们来说,20 RPM 的 API Gateway,几十个用户,纯内存滑动窗口是最简单最合适的选择。

Read more

三台机器部署 ClickHouse 高可用集群实战记录

本文是一份可发布版部署记录。真实 IP、域名、账号、密码、下载链接、业务目录名、机器唯一标识等敏感信息已经替换为占位符。命令中的 <...> 需要按自己的环境替换。 目标与拓扑 这次目标是用三台数据节点部署一套 ClickHouse 高可用集群,拓扑采用: 1 shard x 3 replicas 含义是:集群只有一个逻辑分片,三台机器都保存同一份数据的完整副本。任意一台数据节点宕机时,只要 ClickHouse Keeper 仍然有多数派,剩余节点仍可继续提供读写服务。 规划节点如下: 主机名示例地址角色ch-01<ch-01-ip>ClickHouse Server + ClickHouse Keeperch-02<ch-02-ip>ClickHouse Server + ClickHouse Keeperch-03<ch-03-ip&

By ladydd

折腾记(二):接入火山引擎实时语音 API,家庭语音助手体验直接拉满

接上篇 上一篇用全开源组件(Whisper + Hermes + Edge-TTS)搭了个语音助手,能跑,但体验就是"能用"二字: * 中文识别只有 70 分,方言基本歇菜 * 英文唤醒词"Alexa"喊着别扭 * 说完到回复要等 4-8 秒 * 它说话的时候你插不了嘴 这些问题靠堆开源组件很难根治。于是我去试了火山引擎(字节跳动)的语音服务,结果直接换了条路。 这篇分两段:先讲怎么用火山引擎的 ASR/TTS 替换掉开源组件(小改),再讲怎么上端到端实时语音模型(大改)。 第一段:先把 ASR 和 TTS 换成火山引擎 为什么换 我用豆包输入法的时候发现它语音识别准得离谱。一查,豆包用的就是字节自家的火山引擎 Seed-ASR。开通后有免费额度(

By ladydd

折腾记(一):用全开源组件给家里搭一个语音助手,对接自己的 Hermes Agent

起因 事情是从一块 ESP32-S3 开发板开始的。 我手上有一块 Seeed Studio XIAO ESP32-S3 Sense,带摄像头和麦克风。最初的想法很美好:用这块板子做一个无线语音终端,对着它说话,连到我服务器上跑的 Hermes Agent(一个自托管的 AI agent),让它回答我。 但折腾到一半我突然意识到一件事:我的麦克风、音响、服务器全在家里,为什么要绕一圈用 ESP32?直接把麦克风和音响插到服务器上不就行了? ESP32 那条路(做无线拾音终端)当然也有价值,但那是"为了学嵌入式而学",不是解决问题的最短路径。于是这个项目就从"嵌入式项目"变成了"在服务器上拼一个语音助手"。这篇就记录后者。 教训零:先想清楚你要解决的是什么问题。很多时候最优解比你最初设想的简单得多。 目标

By ladydd

Kiro 的三种代理设置方法:本地、服务端、Remote

作为kiro的骨灰级用户,这篇是我自己折腾 Kiro / Kiro Remote / Ubuntu Server 代理问题后的复盘。 核心不是“怎么配一个代理”,而是先判断:到底是谁在访问外网? 谁访问外网,代理就要配给谁。 0. 先说结论 Kiro 相关代理大概分三类: 场景真正访问外网的进程在哪里代理应该配在哪里本地 KiroWindows / Mac 本机本机 Clash / Proxifier / 系统代理服务端 Kiro / CLIUbuntu Server 上的 shell、CLI、node、kiro 进程Ubuntu 的环境变量,比如 HTTP_PROXY / HTTPS_PROXYKiro Remote远程 Ubuntu 上的 ~/.kiro-server 和 extensionHost远程 Ubuntu 的 Kiro Server

By ladydd
陕公网安备61011302002223号 | 陕ICP备2025083092号