免费模型薅羊毛指南:用 .clinerules 慢速跑,不触限速
你在 Cline 里用免费模型跑任务,跑着跑着突然蹦出来一行红字:
1 | 429 Request was rejected due to rate limiting. Details: TPM limit reached. |
任务中断,前功尽弃,还要重头来。
这不是你的错,这是免费模型的游戏规则:TPM(Tokens Per Minute)限速。本文教你用几个组合拳,让 AI 降速跑,榨干免费额度,再也不触红线。
为什么会被限速?
主流免费模型的限制通常有三种:
| 类型 | 含义 | 最容易触发场景 |
|---|---|---|
| TPM | 每分钟 Token 数上限 | AI 疯狂输出长代码、读大文件 |
| RPM | 每分钟请求次数上限 | Cline 连续快速调用工具 |
| RPD | 每天请求次数上限 | 跑了一整天任务 |
Cline 的问题在于:它默认”能快就快”。读文件、写代码、回复确认——一口气连续调用十几次 API,每次都带着大段上下文,TPM 很快就爆了。
方案一:Cline 内置请求延迟(最直接)
打开 VS Code 设置,搜索 cline,找到 “API Request Delay (ms)”(也可能叫 Rate Limit Delay)。
设置一个延迟,比如 3000ms(3秒),Cline 每次工具调用之间都会暂停 3 秒。
- 优点:零成本,一键生效
- 缺点:整体变慢,但不触限速
这是最暴力也最可靠的方法。跑不急的长任务推荐先把这个打开。
方案二:用 .clinerules 限制 AI 的 Token 消耗行为
.clinerules 是写给 AI 的”工作守则”,放在项目根目录,每次 Cline 启动新 Task 都会读取。你可以用它来约束 AI 的输出风格,从源头减少 Token 消耗。
在你的 .clinerules 文件里加入这一节:
1 | ## 省 Token 守则(免费模型限速保护) |
这几条规则的逻辑:
- 精简输出 → 减少每次响应的 output tokens
- 禁止无效文件读取 → 减少 input tokens(大文件上下文是 TPM 杀手)
- 分批+等确认 → 人为拉长两次 API 调用之间的间隔
- 只输出差异 → 大幅减少代码类任务的 output tokens
- 规划先行 → 一次思考替代多次摸索,减少总调用次数
实测下来,加了这几条之后,同样的任务 Token 消耗可以降低 40-60%。
方案三:多 Key 轮换
大部分免费模型的限额是按 API Key 计算的。如果你能注册多个账号,就能轮换使用多个 Key,变相突破单 Key 限额。
以 Google Gemini 免费额度为例(目前是免费模型里最豪的选项之一):
- 用不同 Google 账号在 Google AI Studio 各申请一个 API Key
- 在 Cline 设置里切换 Key(跑满一个换下一个)
- 或者把多任务分配给不同 Key 并行跑
这个方法有点繁琐,但对于跑量大的批处理任务很有用。
方案四:混合使用付费 + 免费(最推荐)
免费模型限速的根本原因是它处理的 Token 太多了。聪明的做法是:
- 简单/重复性任务 → 免费模型(代码格式化、简单问答、小文件修改)
- 需要大上下文的复杂任务 → 付费模型(跨文件重构、长文生成)
在 Cline 里可以给不同任务类型预设不同的模型配置。复杂任务偶尔花几分钱,换来不限速地畅快跑,其实更划算。
一个实用的 .clinerules 模板
把这段直接贴到你项目的 .clinerules 末尾:
1 | --- |
小结
| 方案 | 难度 | 效果 | 推荐场景 |
|---|---|---|---|
| Cline 请求延迟设置 | ⭐ | ✅ 稳定 | 所有免费模型 |
| .clinerules 省 Token 规则 | ⭐⭐ | ✅✅ 显著 | 日常开发任务 |
| 多 Key 轮换 | ⭐⭐⭐ | ✅✅✅ 高 | 批量任务 |
| 免费+付费混用 | ⭐⭐ | ✅✅✅ 最优 | 长期使用 |
如果你有其他躲过限速的方法,欢迎在评论区分享。