免费模型薅羊毛指南:用 .clinerules 慢速跑,不触限速

⏳ 约3分钟 · 843汉字+66词

你在 Cline 里用免费模型跑任务,跑着跑着突然蹦出来一行红字:

1
429 Request was rejected due to rate limiting. Details: TPM limit reached.

任务中断,前功尽弃,还要重头来。

这不是你的错,这是免费模型的游戏规则:TPM(Tokens Per Minute)限速。本文教你用几个组合拳,让 AI 降速跑,榨干免费额度,再也不触红线。


为什么会被限速?

主流免费模型的限制通常有三种:

类型 含义 最容易触发场景
TPM 每分钟 Token 数上限 AI 疯狂输出长代码、读大文件
RPM 每分钟请求次数上限 Cline 连续快速调用工具
RPD 每天请求次数上限 跑了一整天任务

Cline 的问题在于:它默认”能快就快”。读文件、写代码、回复确认——一口气连续调用十几次 API,每次都带着大段上下文,TPM 很快就爆了。


方案一:Cline 内置请求延迟(最直接)

打开 VS Code 设置,搜索 cline,找到 “API Request Delay (ms)”(也可能叫 Rate Limit Delay)。

设置一个延迟,比如 3000ms(3秒),Cline 每次工具调用之间都会暂停 3 秒。

  • 优点:零成本,一键生效
  • 缺点:整体变慢,但不触限速

这是最暴力也最可靠的方法。跑不急的长任务推荐先把这个打开。


方案二:用 .clinerules 限制 AI 的 Token 消耗行为

.clinerules 是写给 AI 的”工作守则”,放在项目根目录,每次 Cline 启动新 Task 都会读取。你可以用它来约束 AI 的输出风格,从源头减少 Token 消耗。

在你的 .clinerules 文件里加入这一节:

1
2
3
4
5
6
7
## 省 Token 守则(免费模型限速保护)

- **输出精简**:每次工具调用后只汇报关键状态,禁止复述操作细节
- **按需读文件**:只读任务直接相关的文件,不做"预防性探索"
- **分批执行**:完成当前步骤后暂停,等待我确认再继续,不要连续发起超过 3 次工具调用
- **只输出差异**:修改代码时只展示被改动的代码段,不输出整个文件
- **规划先行**:执行复杂任务前先用文字列出步骤,确认后再开始执行

这几条规则的逻辑:

  1. 精简输出 → 减少每次响应的 output tokens
  2. 禁止无效文件读取 → 减少 input tokens(大文件上下文是 TPM 杀手)
  3. 分批+等确认 → 人为拉长两次 API 调用之间的间隔
  4. 只输出差异 → 大幅减少代码类任务的 output tokens
  5. 规划先行 → 一次思考替代多次摸索,减少总调用次数

实测下来,加了这几条之后,同样的任务 Token 消耗可以降低 40-60%。


方案三:多 Key 轮换

大部分免费模型的限额是按 API Key 计算的。如果你能注册多个账号,就能轮换使用多个 Key,变相突破单 Key 限额。

Google Gemini 免费额度为例(目前是免费模型里最豪的选项之一):

  1. 用不同 Google 账号在 Google AI Studio 各申请一个 API Key
  2. 在 Cline 设置里切换 Key(跑满一个换下一个)
  3. 或者把多任务分配给不同 Key 并行跑

这个方法有点繁琐,但对于跑量大的批处理任务很有用。


方案四:混合使用付费 + 免费(最推荐)

免费模型限速的根本原因是它处理的 Token 太多了。聪明的做法是:

  • 简单/重复性任务 → 免费模型(代码格式化、简单问答、小文件修改)
  • 需要大上下文的复杂任务 → 付费模型(跨文件重构、长文生成)

在 Cline 里可以给不同任务类型预设不同的模型配置。复杂任务偶尔花几分钱,换来不限速地畅快跑,其实更划算。


一个实用的 .clinerules 模板

把这段直接贴到你项目的 .clinerules 末尾:

1
2
3
4
5
6
7
8
9
10
11
---

## 免费模型限速保护规则

**触发条件**:当你使用免费 API(如 Gemini Free、Step-3.5-Flash、OpenRouter 免费模型)时,必须遵守以下规则。

1. 每完成一个独立步骤后暂停,输出"✅ [步骤名] 完成,是否继续?"并等待确认
2. 读取文件前先确认是否必要,每次 Task 最多读取 5 个文件
3. 代码修改只输出变更的函数或代码块,绝不输出完整文件
4. 回复长度控制在 300 字以内,技术细节按需展开
5. 遇到不确定的地方,提问而不是猜测并尝试

小结

方案 难度 效果 推荐场景
Cline 请求延迟设置 ✅ 稳定 所有免费模型
.clinerules 省 Token 规则 ⭐⭐ ✅✅ 显著 日常开发任务
多 Key 轮换 ⭐⭐⭐ ✅✅✅ 高 批量任务
免费+付费混用 ⭐⭐ ✅✅✅ 最优 长期使用

如果你有其他躲过限速的方法,欢迎在评论区分享。