⏳ 约5分钟 · 1985汉字+125词

其实 Hermes 出来已经好多天了。我一直在观望,自己也在配、在用,故意没有急着发文章——因为上次被小龙虾搞了个焦虑,这次我想确认自己真的觉得好用,再开口。

现在我觉得可以说了。


我早说过了吧(得意脸)

几个月前,我写过一篇文章:小龙虾(OpenClaw)试吃记录,以及感想。当时的结论是——等等党永远胜利

我替你们亲自踩过了:服务器被吃垮三次,本地安装花了一个下午,配好之后发现能干的事情 Gemini 和 Claude 早就在帮我做了。最后我写道:

“小龙虾还有很长的路要走:安装门槛太高、资源消耗太大、启动太慢、实际能解决的问题和现有工具高度重叠。”

但我当时也说了,小龙虾是过渡性产品。这类东西的逻辑历来如此:先有一批先行者跑出来验证需求、暴露痛点,然后才会有真正成熟的东西接上来。小龙虾帮整个行业试出来了”AI Agent 需要什么”——需要持久记忆、需要轻量部署、需要和你现有的工作流咬合——这个价值是真实的。只是那个答案,不是它自己。

我们等下一个,现在:

Hermes 来了。


我看了不少对比文章,好多没有提一个我们用户最关心的问题:token 消耗多少?上下文会不会爆?

这两件事直接关系到钱包和体验,但评测文章普遍喜欢聊功能,不聊账单。

Hermes 在这两点上的设计,我觉得值得单独说一下。

token 消耗:Hermes 解决过的复杂问题,会被固化成 Skill 文档。下次遇到同类任务,直接调 Skill,不需要重新把整段背景推导一遍——节省的是几倍到几十倍的 token。而且 Hermes 从 Vault 里取记忆用的是语义检索,不是全库塞进上下文,每次只拿相关的片段。

上下文长度:正因为检索精准,上下文天然短。上下文短带来的副作用是:模型更难”脑补”——也就是幻觉更少。这不是玄学,是 RAG 领域的基本共识:给模型喂干净的短上下文,比喂一大堆噪声然后祈祷它不出错,靠谱得多。

省钱和准确,这次是同一件事。


Hermes 是什么

Hermes Agent(NousResearch 出品,GitHub 40,000+ Stars)是一个开源的、会自我成长的 AI Agent。

它的定位和小龙虾不同:

  • 小龙虾是网关中心(gateway-centric):接入一堆服务、帮你路由指令。它也有记忆系统,但记什么、调什么,得靠 Agent 自己判断和触发——更像是一个被动存档,不是主动带入。
  • Hermes 是运行时中心(runtime-centric):它记住你。上周它帮你解决过一个复杂问题,它会把方法固化成一份 Skill 文档存起来。下周你再遇到类似的事,一句话,它直接调出来用。而且每次对话只精准检索相关片段、复用压缩过的 Skill——上下文更短、信噪比更高,省 token 的同时,幻觉也更少

而且它是模型无关的——你可以接 OpenAI、OpenRouter,也可以跑本地模型,不绑死任何一家。


Hermes + Obsidian,怎么配

目前社区里最热门的组合是 Hermes + Obsidian,有人还会加上 OMI 做上下文捕获,但那个我觉得是进阶玩法,先说核心两件套。

逻辑很简单:

Obsidian 存记忆,Hermes 用记忆。

1
你的笔记 / 日常记录 → Obsidian Vault(本地)→ Hermes 读取 → 对话时自动带入上下文

你不需要每次打开对话都跟 AI 自我介绍一遍,也不需要把上下文手动复制粘贴进去。Hermes 启动时会读你的 Vault,它知道你在做什么、你的偏好是什么、上次讨论到哪里了。

对我来说这个组合刚刚好——我本来就在用 Obsidian 做笔记,那些笔记不需要做任何额外处理,直接就变成了 Hermes 的”长期记忆库”。零迁移成本。

基本搭建步骤:

  1. 从 GitHub 安装 Hermes(一行命令,Linux/macOS/WSL2 均可)
  2. 终端启动,hermes setup 引导配置
  3. 把 Obsidian Vault 路径接入作为记忆源
  4. 开始用

API Key 从哪来?

hermes setup 过程中会要求填入一个大模型的 API。Hermes 支持任何 OpenAI 兼容格式的 API,不绑死哪一家。

如果你在国内,直连 OpenAI 或者 Gemini 会有各种门槛。我自己用的是 AI加点油(aijia.you)——这是我自己做的一个 AI API 聚合平台,把 Qwen、Kimi、DeepSeek、Gemini 等主流模型集中在一个 API key 下统一调用,接口格式 OpenAI 兼容,直接填进 Hermes 就能用。

注册后在账户页面生成 API Key,然后在 hermes setup 里填入:

1
2
3
API Base URL:https://aijia.you/v1
API Key:你的 aijia.you key
Model:Qwen3.5-Plus(日常首选,性价比高)

新注册用户有免费额度,试一试足够了。如果预算有限,用 Qwen-FlashDeepSeek-V4-Flash 跑 Hermes 的日常记忆调用,价格非常低——顺便说一句,AI加点油最近刚上了 DeepSeek V4 和 Gemini 3 Flash,感兴趣的可以看我上一篇:Flash 时代降临:DeepSeek V4 与 Gemini 3 Flash 联手,打造 Cline 的极致能效比


如果你之前用过小龙虾,hermes setup 会自动检测 ~/.openclaw,提供一键迁移——配置、记忆、API key 全部带过来。


好在哪里

1. AI 终于有了长期记忆

这是最核心的。以前每次开新对话,AI 都是失忆状态,你要把背景重新铺一遍。Hermes + Obsidian 解决了这个问题:你的偏好、你的项目背景、你上次得出的结论,它都记得。

2. Skills 自动积累,越用越聪明

它解决过的复杂工作流,会被固化成 Skill 文档存在 Vault。几周之后,一个原来需要你写长 prompt 才能触发的操作,变成一句话指令。

3. 本地存储,数据自己拿着

所有记忆在你的 Obsidian Vault 里,不上云。可以检视、可以编辑、可以删除。这一点对我来说很重要。

4. 跨平台连续作战

CLI 开始一个任务,手机 Telegram 收通知,Discord 继续跟进——不断线,不丢上下文。

5. 更省 token,更少幻觉

Skills 把复杂推理的结果压缩成可复用的文档,下次直接调取而非重新推导,省的是几倍到几十倍的 token。精准语义检索只把相关片段塞进上下文,没有噪声——上下文越短、越干净,模型越难”脑补”出不存在的东西。省钱和准确,这次是同一件事。


和小龙虾对比

OpenClaw(小龙虾) Hermes + Obsidian
设计哲学 网关中心:接入多服务 运行时中心:记忆+技能积累
安装难度 高(编译 + 依赖 + 配置一下午) 低(一行命令,自动迁移 OpenClaw 配置)
资源消耗 重(我实测吃垮服务器) 轻量,本地友好
启动速度 慢(>10 秒)
持久记忆 有,但依赖 Agent 主动保存,旧内容需手动搜索触发 自动全量读取 Vault,Skills 自动检索,无需手动干预
技能积累 自动生成 Skill 文档,越用越强
数据存储 依赖第三方配置 本地 Vault,完全掌控
Token 消耗 无 Skill 压缩,每次推导从头开始 Skill 复用大幅压缩,精准检索减少噪声
幻觉风险 上下文质量依赖用户手动管理 短上下文、高信噪比,幻觉概率更低
适合人群 技术玩家,喜欢折腾服务连接 笔记重度用户,想要 AI 真正记住你的人

一句话总结:小龙虾是”AI 接线员”,Hermes 是”AI 长期搭档”。


最后说两句

折腾文具这件事,我折腾够了。

一个工具如果需要我反复调教才能勉强跑起来,它就不配占用我的时间。我之前说,在我已有 MCP 和 Skill 的工作流基础上:

“小龙虾能帮我做什么?所以就真的安排不下你的工位啊亲!”

Hermes 换了个思路——它没有挤进来抢别人的工位,而且它一看设计的产品生命周期就长。开源、模型无关、搭配 Obsidian 这种已经成熟的生态,不会因为某个模型降价或某个竞品冒出来就垮掉。

至少我感觉我等到一个称手的工具了,暂时不会换了。

⏳ 约2分钟 · 677汉字+90词

最近 AI 圈最火的消息莫过于 DeepSeek V4 的发布。作为国产大模型的骄傲,DeepSeek 每次更新都能在性能和成本之间找到一个极其恐怖的平衡点。

目前,DeepSeek V4 已经正式登入了 AI加点油 的模型库。出于成本和实用性的双重考虑,我第一时间在后台上线了 DeepSeek V4 Flash

为什么是 Flash?因为在 2026 年的今天,我们已经过了那个盲目追求“参数最大、价格最贵”模型的阶段。Flash 模型(闪电版/轻量版)已经进化到了一个临界点:在 90% 的日常任务中,它们的速度和逻辑已经完全够用,而成本却只有旗舰模型的零头。

阅读全文 »

⏳ 约2分钟 · 814汉字+30词

前段时间我写了一篇《Markdown 格式自主:AI 时代最值得学会的一件事(之二)》,没想到我这个毫无流量的小公众号居然能有几十个转发。

那确实说明了一个事实就是 Markdown 的好处大家多少都能意识到了。
是的,Markdown 已经不是程序员才需要掌握的神秘玩意了。从笔记软件 Notion、Obsidian,到办公协作的飞书、钉钉,再到你每天都在对话的 ChatGPT 和 豆包,Markdown 早就成了这些主流工具的通用语言。

不过随之而来:“道理我都懂,用起来会卡住。”

对于习惯了 Word 或者富文本编辑器的朋友来说,每次想加个粗、分个段,都要停下来想一下:加粗是两个星号还是一个?标题要加几个井号?这种“思维断层”极大地破坏了写作和调教 AI 的心流。

当然,你真的熟练了要什么就直接在键盘上敲出来,而不是到 Word 的菜单栏里面去翻找之后,效率真的会大大提升。


欢迎来到:Markdown 大冒险

为了帮大家快速上手,我利用 AI 辅助,花了一个晚上撸出了这个网页小游戏:Markdown 大冒险 (Markdown Typing)

这个游戏其实非常简单、基础。我自己试了一下,通关时间也就 10 分钟左右。这也正说明了 Markdown 本身就是一种极其简单的工具,只要稍微练习一下就能掌握。

游戏虽然简单,但该有的练习都涵盖了:

  • 第一章:基础练习。练习最常用的 # 标题、** 加粗、- [ ] 任务列表等。
  • 第二章:进阶练习。涉及链接、代码块以及稍微复杂一点的表格。

为了让练习不那么枯燥,我给它套了一个“异世界冒险”的小壳子,配了一些简单的像素风场景。你每打对一个符号,右侧的预览区就会实时渲染出效果,让你直观地看到 Markdown 是如何工作的。


看看大家的战绩

在游戏首页,我接入了一个实时看板。你可以看到目前有多少人开始了这场冒险,又有多少人最终成为了“Markdown 大师”。


访问地址

游戏已经上线我的 Playground,完全免费,无需注册:

👉 play.hawken.im/markdown-typing/

建议使用电脑实体键盘访问,并切换到英文输入法,那是法术生效的唯一途径。


就如上篇文章提到,无论是在飞书里写文档,在 Notion 里做知识库,甚至是用各种插件给微信公众号排版,这套简单的语法都是通用的。现在都可以去试试看你手上的文本工具支不支持 Markdown。


附录:Markdown 常用法术速查表 (Cheat Sheet)

效果 语法 秘籍
一级标题 # 标题内容 井号后记得加空格
二级标题 ## 标题内容 井号越多,字号越小
加粗 **文字** 左右各两个星号
斜体 *文字* 左右各一个星号
无序列表 - 项目 减号/星号 + 空格
任务列表 - [ ] 待办 中括号内空格是未完成,x 是完成
链接 [文字](链接) 括号不要用错
代码块 ```代码 ``` 三个反引号包裹
引用 > 引用内容 像箭头一样指向右边
高亮 ==文字== 两个等号(部分编辑器支持)

⏳ 约27分钟 · 12124汉字+392词

【第二版说明 · 2026 年 4 月】

芯片战争」与「鸦片战争」只差一个字,逻辑却截然相反——鸦片战争是强行把商品卖进中国,芯片战争则是限制向中国出口。历史总爱开这种玩笑。

本文第一版发表于 2025 年初,原为一场面向非技术背景朋友的 AI 讲座整理稿。一年多后,AI 世界已面目全非:模型更迭、芯片战争升级、Agent 从概念变成现实。

第二版修订了若干事实性错误,刷新了所有过时的模型信息,并在 DeepSeek 章节补充了 V4 发布(2026 年 4 月 24 日)的最新进展。其中有一个细节值得在此单独点出:DeepSeek V4 的训练完全使用了华为昇腾芯片,而非英伟达 GPU——这恰好发生在英伟达 CEO 黄仁勋公开为对华芯片出口解禁发声的同一周。黄仁勋的论点是:封锁只会把中国的钱推向华为,并不能阻止中国 AI 的发展。DeepSeek V4 的出现,像是对这一论点最直接的现实注脚。

框架和叙事不变,适合全新读者从头读起,也适合读过第一版的朋友直接跳到第四章看新内容。

大家好!我是 hawken,非常荣幸能有机会和大家分享我在人工智能领域的一些学习和实践经历。我并非 AI 科班出身,但几年前,我有幸给几位很能抓住前沿信息的老板打工,开始接触并参与到了一些 AI 产品的研发,这成为了我职业生涯的一个重要转折点。
说是不幸也可以说幸运,在早期接触了兴起的 AI,我被冲击到三天三夜睡不着。所以我对很多朋友的恐慌和焦虑也是感同身受。而且这段时间更加是鱼龙混杂,各种新兴概念层出不穷。真真假假混淆视听,我认为很多朋友缺少一张全貌的概念图。有一个全图可以帮助我们把接触到的新概念放进去,这样也能帮我们辨别真假。
那么,我就和大家一起回顾AI的发展历程,梳理关键技术脉络,探讨AI的实际应用,并对未来趋势做一些展望。

一、 我的 AI 引路人:三个不同领域的导师

AI 并非横空出世,它有着漫长而曲折的发展历史。在我个人的学习过程中,有幸遇到了三位不同领域的导师,他们的研究方向,也恰好代表了AI发展过程中的一些重要分支:

  • 导师一:决策树与游戏 AI

这位导师曾给我讲解了 AI 如何利用决策树与人类下棋。决策树是一种模拟人类决策过程的算法,通过构建树状结构,来预测不同选择的可能结果。在下棋游戏中,每一步棋都会产生多种应对,形成一个庞大的决策树。如何高效地搜索这棵树,找到最优解,是关键所在。

这是一棵典型的国际象棋决策树,我走一步,对面有三种可能的应对,对面的每一种应对,我又有三种可能,这就有九种了,类推下去,我分析五步棋,也就是三的五次方而已。对于计算机来说是个小 Case,所以到了 1997 年,IBM 的深蓝就凭借这种暴力计算力战胜了人类的国际象棋世界冠军卡斯帕罗夫。
可是围棋有所不同。围棋每下一步棋都有几十上百种应对,仅分析五步就有上亿个分枝,而后看五步可能都还不足以打败人类的围棋冠军。因此,在AI发展的几十年里,围棋似乎是人类为数不多的骄傲所在。直到 2016 年 AlphaGo 战胜了人类的围棋冠军。
AlphaGo 在战胜人类围棋冠军的过程中,除了采用更先进的决策树搜索算法:

因为即使对于计算机来说,从上亿个分支中搜索最优解也是一个挑战,这里就引入了这个蒙特卡洛树搜索算法。我们今天不会详细讲解算法,但是大家可以大致了解,引入算法就意味着有所取舍,计算机为了时间效率,会牺牲最优解,就是说算法不一定算的出最优解,但是通过提高效率计算机可以多往后看几步棋。而光是采用决策树都还不够。
它使用了深度学习技术,配备两个神经网络:一个策略网络(Policy Network)用于预测下一步棋的概率分布,一个价值网络(Value Network)用于评估当前局势的胜率。这启示我们,将传统算法与深度学习相结合,可以创造出更强大的AI。

  • 导师二:遗传编程与代码生成

在 AlphaGo 战胜人类的15年前,我的这位导师就在研究 AI 写代码了。其基础算法是模拟进化算法,也叫遗传算法。在编程领域,它被称为遗传编程。其基本原理是,人类告诉计算机需求,计算机生成一段代码(或称”基因”),这段代码会变异出多个”个体”,经过反复淘汰和繁殖,最终得到理想的代码。

这种方法也是在过去的几十年一直没有取得大的进展。大家可以类比人类的基因,要编写出像人类这样强大的程序,自然界已经发展了几十亿年,经历了无数轮的淘汰,即便如此,我们人类仍然保留着很多遗传病。因此,这种算法在编写复杂的程序时非常困难,而且需要大量的计算资源,所以AI在这个方向上没有取得太多成就。

  • 导师三:语义学与自然语言理解

这位导师来自电子科大,他的研究方向是语义学。在当时,语义学主要关注的是如何让计算机理解人类语言的语法结构,分析句子中的主谓宾定状补等成分。
看这里是不是终于有个语言相关的词了,听起来跟当下的AI热词,大语言模型比较接近了。
很遗憾,刚才我讲的这三个老师的研究,都跟大语言模型没啥太大关系。纠正一下,深度学习关系密切,不过将决策树和深度学习相结合是后来的事了。
早期的聊天机器人(如微软小冰)主要依赖于语义分析技术,但效果并不理想,容易出现”尬聊”的情况。
图中就示范了 AI 怎么通过语义学来分析一段文字。可以看出这就要求输入的精度了:人的自然语言语法经常混乱,文字也有可能出现错别字,还有标点符号也有可能错误。所以几十年来 AI 一直无法人进行正常的对话。

这三位导师的研究,代表了 AI 发展早期的一些探索方向。然而,它们与当前的大语言模型(LLM)热潮,似乎并没有直接的联系。在浩如烟海的计算机科学中的人工智能专业里,都还有无数个研究领域,最后在大语言模型这个分枝引爆。可想而知给整个行业造成多大的冲击。
OpenAI 带着 ChatGPT 横空出世那几天,我自己是恐慌,焦虑,三天三夜睡不着。想想这些老师,毕生的研究都被多多少少绕开了,不知道他们的心情是怎样的。AI 技术的发展是多么的迅速和不可预测。

二、 AI发展简史:从图灵测试到大语言模型

刚才讲了很多碎片化的信息,我们就简单再梳理AI的发展历史,给大家掌握一个全貌。
回顾 AI 的发展历程,我们会发现,它并非一蹴而就,而是经历了一次又一次的”寒冬”与”复兴”:

  • 图灵测试 (1950s):

这位是计算机科学的开山祖师,上古真神,图灵老人家。他在很年轻的时候自杀而死,咬了一口有毒的苹果。这个苹果就成了后来苹果公司 logo 的来历。
这位计算机科学的奠基人艾伦·图灵提出了著名的”图灵测试”,为人工智能设定了一个目标:让计算机能够模拟人类的智能,以至于人类无法分辨出与之对话的是人还是机器。这成为了AI研究的早期目标。
图灵测试思路其实很简单,怎么测试一个人工智能算真正意义上的人工智能,让一个真人 C,坐在墙后面,跟对面的 A,B 对话,如果 C 分不清谁是电脑谁是人,那么这个AI就算通过测试。

  • 第一次AI寒冬 (1970s):

这位叫赫伯特·西蒙,他的名言是:十年内,AI 将成为国际象棋世界冠军。这是他在 1958 年说的。十多年后的 70 年代,开启了后人所称的第一次 AI 寒冬。
早期的 AI 研究过于乐观地追求通用人工智能(AGI),但受限于当时的计算能力和理论基础,未能实现预期目标。当时的科幻小说、科幻电影都在狠狠期待着人工智能。可以说期望越高失望越大。研究经费大幅削减,AI 研究进入低谷。

  • 专家系统时代 (1980s):

有寒冬自然有春天,为了走出困境,研究者们开始转向更务实的方向,专注于开发能够在特定领域模拟人类专家知识和推理能力的专家系统。

专家系统的核心组成部分是知识库和推理引擎。知识库存储领域专家的知识,通常以规则(IF-THEN)的形式表示;推理引擎则根据知识库中的规则和用户提供的事实,进行逻辑推理,得出结论。

图为一个典型的知识库规则
专家系统的一个显著特点是贵。
下面是专家系统的建设过程:
- 知识工程师 (Knowledge Engineer) 与领域专家合作: 知识工程师负责从领域专家(如医生、工程师、金融分析师等)那里获取专业知识。
- 知识表示: 将获取到的知识转化为计算机可理解的形式,通常是规则、框架或语义网络。大白话说,其实就是if else then,如果这样就那样,然后就那样。但是那个年代需要人去手动告诉电脑。
- 构建知识库: 将表示好的知识存储到知识库中。
- 开发推理引擎: 选择或开发合适的推理引擎,实现知识的推理和应用。
- 设计用户界面: 提供友好的交互方式,方便用户使用。
- 测试与评估: 对专家系统进行测试,确保其准确性和可靠性。
- 维护与更新: 随着领域知识的变化,不断更新知识库。
当时世界上成功的专家系统屈指可数,分别在医疗领域,计算机领域和地质勘测领域。说到地勘领域就应景了,这个 prospector 系统建成于 70 年代,现在都还是一个很重要的系统。也许这个系统在座的是有所了解哈。

  • 优点:

  • 专业性

  • 可解释性

  • 知识的显性化

  • 局限性:

    • 知识获取困难。
    • 领域狭窄。
    • 难以处理不确定性。
    • 缺乏常识。
    • 维护成本高。
  • 第二次AI寒冬 (1990s):

专家系统建设成本高,维护成本高,应用领域狭窄。于是自然而然,业界也很少投入资金做专家系统了。而且不光不做专家系统了,人们甚至感觉你这个系统不太好意思叫做AI系统呀,因为稍有不确定性就难以处理,干脆把这种系统叫做自动化系统好了。自动化系统听起来是不是很熟悉。后来把那段时间也被称为一次寒冬。

  • 机器学习的崛起 (2000s):

专家系统的局限性主要来自于一个问题,专家知识库是手工编写的,这个问题在90年代得到了解决,得益于计算能力的提升和数据的爆炸式增长,人们开始尝试自动化编写知识库,这个方法我们叫机器学习。
机器学习的核心思想是,让计算机从数据中自动学习规律和模式,而无需人工编写规则。
机器学习的主要类型有:

  • 监督学习: 从带有标签的数据中学习,用于分类和回归任务。
  • 非监督学习: 从无标签的数据中学习,用于聚类和降维任务。
  • 强化学习: 智能体通过与环境交互,学习如何采取行动以最大化累积奖励。
    机器学习技术的成熟迎来一次蓬勃的发展。
    这里给大家看看这次蓬勃的发展带来了哪些成果。
  1. 1997年,IBM所开发的西洋棋机器人深蓝战胜了当时的西洋棋世界冠军卡斯帕罗夫。
    1958年的预测”十年内,AI将成为西洋棋世界冠军。”
  2. 2005年,由斯坦福所开发的一台机器人成功在一条沙漠小路上行驶了210公里。
  3. 2006年,深度学习(多层的神经网络)以及云计算的观念问世。
  4. 2011年,Apple发表了语音助手Siri。
  5. 2012年,Google发表了个人助理Google Now。
  • 深度学习革命 (2010s):

大家也许发现,到了机器学习时代已经开始慢慢接近真相了。其实后面还有一段时期被称为第三次寒冬,这种略带争议的细分历史我们就不再赘述了。
我们进一步深入,就到了,深度学习。
传统的机器学习方法需要人类为机器学习软件提供输入,才能充分发挥作用。
我们在这一步通常称为数据处理,他有数据收集,数据清洗,数据标记等等工作。直白说就是这个时期的学习材料需要人工处理到软硬适中,大小适中才喂给机器,像是喂养小婴儿一样。
而在深度学习中,数据科学家只向软件提供原始数据。深度学习网络自行推导特征,更独立地学习。它可以分析非结构化数据集,什么是非结构化数据集呢,就是我们人写给人看的 word 文档呀,电子表格呀。
另外强调一下,深度学习准确的说属于机器学习的子集,他不是一个独立的分类。而底层技术都离不开神经网络。

所以到了这一步,给计算机投喂数据就变得简单,而且计算机的胃口也越来越大。现在我们可以看到 OpenAI 的胃口甚至大到了想吃下全世界的数据。深度学习的突破性进展,主要得益于以下几个方面:

  • 大数据: 互联网的普及和移动设备的广泛应用,产生了海量的数据。
  • 计算能力: GPU(图形处理器)的出现,为深度学习提供了强大的计算支持。
  • 算法创新: 新的神经网络结构(如CNN、RNN,后面还会提及)和训练方法(如反向传播)的出现,提高了模型的性能。

讲到神经网络,属于 AI 领域的深水区,深奥而且很重要,我们今天以科普目的,对神经网络进行一些粗浅的了解。
神经网络顾名思义,就是对我们人类的神经结构进行模拟。
他的基础单元就是对神经元的模拟。

图中 a 代表输入,w 代表权重,b 代表偏移量,进行一个汇总,之后给中间的函数(f)进行处理得到输出 O。
大家知道人脑的神经元是很强大的,会根据人的外界输入得到刺激进行生长,包括连接和断开,有点像搭电路的感觉,我们常说建立脑回路好像就是说这个过程。
我们现在看到的这个模拟神经元也会自己进行一些调节,比如对权重的重新调整,偏移量的重新调整。
具体的算法我们今天肯定无法涉及。我们知道神经网络的基本单元是这个样子。基本单元组成一个单层神经网络,单层神经网络组成一个多层神经网络。

这样的神经网络已经可以干成不少事情了。我们的家用电脑上都可以跑一个神经网络用来简单的进行图像识别。而传闻 OpenAI 的 GPT-4 拥有约 1.8 万亿个参数(官方从未证实这一数字),一次训练就要花掉 6000 多万美元。
我们这一路打怪升级,终于要进入大语言模型的领域了。
前往这个大魔王的路上其实还有很多很多技术细节。我这里只能抛出一大堆术语,这些术语都是短短两小时无法进行展开。但是他们确实又是重要的,在这里我们简单过一遍。下面就给出一些核心概念和解释:

  • 核心概念:
    • 神经网络: 由多个层次的神经元组成,模拟人脑神经系统的工作方式。
    • 激活函数: 神经元的基本结构只能输出线性函数,而真实世界通常是复杂和非线性。激活函数引入了非线性,使神经网络能够拟合复杂的函数。
    • 前向传播: 从输入到输出的一次基本的运算。
    • 反向传播: 根据模型的输出与真实标签之间的误差,反向调整神经网络的权重。这个真实标签很多时候都是人手动给标上的,所以我们也可以把反向传播理解成一次训练过程。
      神经网络这一个领域中还有这几个重要的神经网络模式:
  • 常见模型:
    • 卷积神经网络 (CNN): 擅长处理图像数据,广泛应用于图像识别、目标检测等领域。卷积是一种数学运算,在定义上,我模糊地记得是两个函数相乘可以用两个函数的导数和积分的特定的运算表达出来。在座的理工科生应该都对卷积有所了解。我这里可以分享的是为什么卷积神经网络在图像识别领域很擅长。首先通过卷积运算和池化操作,计算机可以识别出出现在图像不同位置的同一物体(即平移不变性)。这是图像进行了卷积之后的样子,可以让计算机分辨出轮廓。

电脑里面的花非花雾非雾的状态经过卷积可以知道花的边界在哪里。

- **循环神经网络 (RNN):** 擅长处理序列数据,他能有效的处理自然语言,甚至音乐片段,但是他缺乏长期记忆,不过后来有了 LSTM 机制,Long and Short Term Memory,长短期记忆,改良了循环神经网络。
- **生成对抗网络(GAN):** 还有一个重要的神经网络叫生成式对抗网络。一般有两个网络组成,一个用于生成结果,一个用于批判。经常用于图像生成,图像修复领域。前不久韩国发生的一个臭名昭著的 deepfake 事件,把一个人的脸装到另一个人身上,就是用的生成式对抗神经网络。
- **Transformer:** 这就是最后登场的主角了,我看网上都用英文来称呼这个神经网络模型,也没给取一个正式的中文名,大家可以想象变形金刚就是 transformer。他的特点,不需要循环或者卷积的架构。应用的一个机制叫做注意力机制。基于注意力机制,无需循环或卷积结构,成为大语言模型的基石。

Transformer 就是当前所有流行的大语言模型的底层神经网络。具体 transformer 的理论知识也是一下子讲不清的。大家感兴趣的话,中文网络里一个叫李宏毅的老师讲的很好。我也看他的视频学了不少知识。
今天不可能放一个李宏毅的课给大家听,那么只能先肤浅的理解transformer,可以说他是一个很直接,很简单粗暴的模型,但这样说又过于武断,他应用了一个叫注意力机制的方式来让 AI 关注到自然语言中文字与文字之间的关系,还用了编码和解码的机制选择最高概率的文字进行输出。
还记得刚开始我说的语义学,要分析自然语言的语法,transformer 就不做这个事,它关心一个直接的文字关系,输出最有可能出现的文字,听起来简单而背后的机制并不简单。这里我用文字这个词,其实在大模型里面,AI 用的是 token,这个 token 有可能是单词,也有可能是长的单词拆分开的一部分词。所以我才说,我们今天只能既简单又武断地概括 transformer。
这里还可以提一嘴,OpenAI 的 transformer 甚至不做编码,只做解码。所以 OpenAI 发布 chatGPT 出来的时候,我们常说 chatGPT 最厉害的是补全。就是你如果给他一个不完整的段落,他可以很好的把缺失的部分补上。这也是 OpenAI 官方发了一个教程,教提示词工程,要我们多利用这个特点来给 chatGPT 写提示词,让它生成我们想要的东西。我后面会讲讲这个提示词工程。

三、 大语言模型 (LLM):AI 的新里程碑

进度有一半多了,回顾一下我们当前掌握的情报:
首先 AI 作为计算机科学中的一个重要领域,是跟随计算机科学一同发展的。计算机科学的历史有多长,AI 的发展历史就有多长。
第二,AI 的发展历程几经起伏,给人类带来希望也带来失望,每当有重大突破的时候又会给人带来焦虑和不安。
最后,AI 是一门复杂的学科,涉及到不同的科学领域,也有许多发展方向,而不同的方向上都有很多重要的成果。就像一棵大树伸出很多枝干,而很多枝干上都已经开花结果。今天我们的重点方向是大语言模型。在这个一开始不算起眼的枝干上居然结出一个巨大的果子。
虽然说 AI 技术在大语言模型这个分枝上走的很远,大家有没有回想起最早讲的图灵测试,就是测试自然语言的辨识能力。这在某种意义上 AI 领域又回归了本心。

而我们沿着这个果子的枝干回溯,经历了很多重要的技术里程碑。包括前面讲的机器学习,深度学习,神经网络,还包括神经网络中的 tranformer 这一类型。
Transformer 已经着了太多笔墨,但这确实没办法,因为 Transformer 就是大语言模型的核心技术,大语言模型又是深度学习在自然语言处理领域的最新进展,也是当前 AI 研究的热点。
大语言模型又是长什么样?我们这里又来给一个概括:

首先,大语言模型采用的核心技术:

  • Transformer 架构: 采用自注意力机制,能够捕捉文本中的长距离依赖关系,提高了模型的性能。
  • 预训练与微调: 首先在大规模无标签文本数据上进行预训练,学习通用的语言知识;然后在特定任务的有标签数据上进行微调,使模型适应具体应用。
  • Tokenization: 把输入的文字转化成模型能理解的 token(关于 token 前面已经讲过一二)。

蓝星上最重要的一些大语言模型有哪些:

  • GPT 系列 (OpenAI): GPT-4o、o3、o4-mini 等;推理模型 o1/o3 系列已独立成线。
  • Gemini 系列 (Google): Gemini 2.0 Flash、Gemini 2.5 Pro 等。
  • LLaMA 系列 (Meta): LLaMA 3、LLaMA 4。
  • Claude 系列 (Anthropic): Claude 4(Opus 4、Sonnet 4、Haiku 4)。
  • DeepSeek 系列: DeepSeek-V3、R1、V4(2026 年 4 月最新发布)。

国内还有哪些大语言模型: 通义千问、文心一言、智谱AI、百川智能、MiniMax、零一万物、华为盘古、腾讯混元、字节跳动豆包、月之暗面 Kimi 等。
大语言模型一个关键字是大,这个大指的是训练数据大,训练参数多,OpenAI 就是恨不得把全世界的互联网上的内容都塞给他们的 chatGPT。这个也带来了很多法律问题。
那么 chatGPT 是大语言模型吗?准确说不是。GPT 3,GPT 3.5,GPT 4,还有现在的o1,4o啥的,这些是大语言模型,但也不完全是。有些模型,比如o1,我们叫做 reasoning model,中文叫推理模型,推理模型又是一个新词,我们后面会讲一下。
OpenAI 公司还有一些模型用来生成图像,识别语音,这些也不是大语言模型。这一类模型我们前面提到过,采用了卷积神经网络或循环神经网络。
我必须打住了,再讲下去就单纯在堆砌术语,根本没法展开了。就好像在地图上瞎戳一些点,每个点是一个地名,但是根本又不说这里到底长什么样,徒劳的增加知识负担。
今天我们得到一个大的框架就够了,有心的朋友以后可以慢慢往这个框架里继续装填知识。

四、 DeepSeek:国产大模型的崛起

终于讲到 DeepSeek 了。一开始走入大众视线的模型叫 DeepSeek V3,当时 V3 最突出的特点就是便宜而且够用。请注意是够用而不是好用。但是因为他太便宜了,所以在行业中造成了巨大的轰动。不过当时 OpenAI 的CEO,山姆奥特曼稍微有点嘴硬,他认为 DeepSeek 是蒸馏了 OpenAI 的模型。后来也证明他不完全错,DeepSeek 除了做了蒸馏,还使用了一个外部教师模型。后面 DeepSeek 公布自己的技术论文后,我们也发现了他还使用了更多深奥的技术。
最关键的两个因素叫做:

  1. MoE 混合专家模型:通过稀疏激活机制大幅减少了计算量。刚刚我们提到过神经网络使用激活函数来更好的拟合非线性函数,换句话说就是让计算结果更加贴近真实世界。而 MoE 的效果是混合了不同分工的专家模型,处理不同的任务的时候可以调用不同的专家。可以简单比喻为人类的大脑也进行了分区,不同的区域处理不同的任务,而不是同时全部激活。
  2. FP8 训练:也就是使用 8 位浮点数进行深度学习训练,通常用的是 16 位或 32 位。降低了精度也就降低了成本。
    降低了成本的同时肯定会损失一些效果,所以 DeepSeek V3 的评分并没有达到顶尖水平。而且使用过程中会发现幻觉现象很严重,幻觉的意思就是前文有点长了之后 transformer 的注意力机制就会发挥失常,会一本正经的编出一些不存在的事情。
    后来还传出一个小插曲,有时候你问 DeepSeek,你的模型是什么?他会回答你:我是 GPT 3.5。大家众说纷纭,有一个可靠的理论认为这是温度这项参数调的比较高,也就是随机性变强,GPT 3.5 作为 OpenAI 发布的最有影响力的一款模型,DeepSeek 作为后来用互联网数据训练的模型,是有可能说错的。也有推测 DeepSeek 的外部教师模型就是用了 ChatGPT。
    直到有一天,英伟达的股价因为 DeepSeek R1 被打下 17%。这就不是闹着玩了。
    人们开始认真对比 DeepSeek 和 OpenAI。

网上还有很多梗图来嘲笑 OpenAI,例如下图:

我们今天是一个略带严肃氛围的讲座,我们来看看跑分:

DeepSeek 的 R1 对标 OpenAI 的 o1。完全是在伯仲之间。
DeepSeek的 V3 对标 o1-mini,大部分情况差不多,做数学题和写代码有明显差距。
还有一点很重要,DeepSeek 的模型开源。模型开源并不是代码和训练过程开源,不过模型开源已经很了不起了。我们普通的公司本来也训练不起一个大语言模型,而且即便投入资金和资源去训练大语言模型,也没法和这些巨头进行竞争。
所以我们从应用层面,最多自己部署一个本地的私有化模型应该是最高级的应用方式了。
前面讲的是技术层面上 DeepSeek 的不同,我这里没有说优势,因为目前还没有说哪一种技术能够比另一种技术好,都是能够带来更好的 AI 的技术。我心里愿意他们能共同进步。
我们现在从应用层面上讲 DeepSeek 有个很独到的功能,他内置了思维链并且展示了思维链(CoT)。就好比,我们人类思考的时候是不是像自己在跟自己说话呢?思维链就像是 AI 自己先进行思考再来回答人类的问题。如果不用思维链,就需要人类自己调整提示词,前面提到过一个提示词工程,就是用来精修提示词,让 AI 能给出理想的,稳定的回答。后面我还会更详细的讲到。
当然,我还是不会妄下评论内置思维链就一定是好的。大模型的基础本身很好,如果人工对提示词进行一些精修,甚至我也可以人工引导 AI 产生思维链,这样反而能够更自由的发挥大模型,如果提前内置思维链,可能会限制大模型自由的发挥。所以至少我看来这是仁者见仁智者见智的事情。当然应用层面上,DeepSeek 的确是对新手非常友好。不用研究提示词,就可以得到很好的结果。而且看到了 AI 的思维链,也可以进行手动修正。

【2026 年 4 月更新:V4 来了,而且抛弃了英伟达】

距离 R1 震惊世界整整一年,DeepSeek 于 2026 年 4 月 24 日发布了 V4。技术突破之外,更大的新闻是:V4 的训练完全依赖华为昇腾 950 芯片,彻底绕开了美国对英伟达 GPU 的出口限制。

V4 的主要特性:

  • 两个版本:V4-Pro(1.6T 总参数 / 49B 激活参数)和 V4-Flash
  • 上下文窗口:100 万 token,整个代码库可以一次性塞进去
  • 宣称最强:开源模型中 Agent 编程能力最强,推理能力”世界级”
  • 仍有差距:DeepSeek 自己承认,整体能力仍落后于 Gemini 等顶级闭源模型
  • 价格依旧极低:$0.14 / 百万 input token

这让局面变得非常微妙。就在 V4 发布的十天前,英伟达 CEO 黄仁勋在 Dwarkesh Patel 播客中被主持人反复追问:向中国出口高端 AI 芯片是否危害国家安全?黄仁勋被逼急了,直接怼回去:

“You’re not talking to somebody who woke up a loser.”(你说话的对象可不是什么睡醒的失败者。)

他的核心论点是:美国出口限制根本挡不住中国 AI 发展,只是把中国的钱推向了华为。而 DeepSeek V4 恰恰就是用华为芯片训练出来的——讽刺的是,验证了他的论点,也验证了他的担忧。

这场博弈,已经从”谁的模型更强”,升级成了”谁能造出自己的算力基础设施”。

五、 AI 应用:从聊天机器人到智能体

OpenAI 在 2022 年 11 月 30 日发布了轰动世界的 ChatGPT。第一版写于 2025 年初,那时距 ChatGPT 发布才两年多。如今 2026 年再看,又是一番新天地,AI 应用的爆发速度远超当时所有人的预期。
未来会怎样简直是不敢想象的。不过我们借助一些大佬的说法来斗胆想象一下。
首先来自 OpenAI 的 CEO 山姆奥特曼的预测,他也算是业界一个显眼包吧,为人很高调,经常接受采访,他的预测越来越激进——早期他说”四五年内见到 AGI”,到 2025 年底已改口说 AGI”可能就在眼前”,甚至有观点认为某种意义上的 AGI 已经到来。

AGI 就是通用人工智能,中间的 G 是 general,通用的意思。这个就是最早,在第一次 AI 寒冬前,人们对 AI 抱有的最高期待了。
下图是我截取的英伟达发布会上,黄仁勋对AI未来的一个描画。

我们现阶段应该已经到了这个位置。生成式 AI (Generative AI)往智能体 AI (Agentic AI)发展的过程中。
生成式 AI 和智能体 AI 又是两个新词,其实刚刚讲 AI 概貌的时候差点讲到,只是这两个词更多的是在应用层面上的分类。所以我们现在来讲讲。
首先生成式 AI ,指的是专注于创建新的内容,而不是仅仅分析或处理现有数据的 AI。这些内容可以是文本、图像、音频、视频、代码等。所以我们刚刚讲了很多的大语言模型应用,都属于生成式 AI 的一部分,那么一些不用大语言模型的 AI,也很出名的,比如文生图的 Stable Diffusion 和 Midjourney 都是生成式 AI。
再来是智能体 AI,我们可以从下图来看。

X 轴上,从左到右是对大模型要求的从弱到强,y 轴上,从下到上,是对传入大模型的信息的从简单到复杂。
所以我们知道最简单,最便宜的应用,就是聊天机器人。
这也是最早 ChatGPT 出来给我们展示的应用方式。
横向发展,对大模型进行了更进一步的训练,我们叫微调,使得大模型可以应用在一些更专业的场景,就可以低成本的达到一定的效果,所以经常被一些公司用来搭建自己的模型。我之前做的一个英语学习项目就是对模型进行了微调,然后才可以搭建在便宜的服务器上的。
纵向发展,RAG,就是 Retrieval-Augmented Generation(检索增强生成)的缩写。这个是目前的一个主流方向。简单说就是有知识库辅助的大模型。直接让 AI 去检索你给他提供的知识库,省去了微调的成本,出来的效果还非常漂亮。我们现在的人工智能客服就是采用的这个方向的技术。
那他们结合起来,一个在应用层面上的目标应用,我们叫 Agent,智能体。我们认为智能体至少要能实时接受外部的信息,也就是要么有个摄像头这类传感器,要么得联网搜索信息。然后能够操作外部世界。这里也可以是虚拟的外部世界,比如能操作我电脑上的文件的 AI,也可以是一个智能体。
还有一个关键的功能,一个智能体一定能够跟另一个智能体进行交互。
这样的想象空间就太大了。因为人工智能的工作效率远超人类,想象我一个人的 100 个智能体工作一晚上,跟外面的 1 万个智能体进行交互,第二天再来给我汇报工作,是一个什么场景。
我这里斗胆预判以后的商业模式会出现一个 A2A 模式。就是 Agent to Agent,我们现在总结的商业模式什么 B2BC2CB2C 之类的很多都会被 A2A 替代。(记一下:2025 年 2 月预判)
回到这个截图,看来黄仁勋认为我们最后才会拥有能操作物理世界的 AI。
去年的 5 月,诺贝尔物理学奖得主辛顿在采访中说,最难被取代的人类工作是水管工。这里我们看黄仁勋也是这么认为的。

AI 的应用已经渗透到我们生活的方方面面,从简单的聊天机器人,到复杂的智能体,AI 正在改变我们的工作和生活方式。我们
应用层面说了这么多,还这么远,好像离我们日常的应用还有点距离,接下来我就细说日常的应用场景。
首先,最基础,最简单的应用方式当然就是 APP,或者网页端上通过跟聊天机器人进行对话来获取帮助了。这种应用方式,有什么好的诀窍能够得到更好的帮助呢?
就是前面提到过的,提示词工程了。这是因为 transformer 本身的特性,我们要跟AI交流需要一些技巧,因为 transformer 是注意力机制,聊多了容易产生幻觉,聊少了达不到想要的内容,那么我们就尽量用提示词工程快速达到我们想要的输出结果。具体的技巧,AI 教育领域的著名学者**吴恩达(Andrew Ng)**开过一门很有影响力的课。吴恩达是 deeplearning.ai 创始人、Coursera 联合创始人,曾任谷歌 Brain 负责人和百度首席科学家,是全球最具影响力的 AI 教育者之一。我是听完了的,可以给大家分享一下要点:

  1. 给 AI 分配角色:因为大语言模型的训练数据来自于网上乱七八糟的材料,所以如果让 AI 明确自己的身份角色,因为注意力机制的特性,AI 可以更精确的生成我们需要的专业内容。
  2. 用好分割符号:特别是可以了解一下 Markdown 这种文本语法,因为很多优质训练材料都是用 Markdown 写的。举个例子,Markdown 的语法会用三个撇点来括代码内容,那么我们要给 AI Review 自己的代码的时候就可以把代码用三个撇点括起来。
  3. 给出例子:给 AI 样例,让它依葫芦画瓢。
  4. 给出开头方便 AI 进行补全:这也是利用 transformer 的特点,因为 transformer 的生成过程用了编码和解码的机制选择最高概率的文字输出。所以给出了开头,会很好的引导 AI 推算出后面的文字。

这里还有我自己的一个小诀窍,你可以单独开一个聊天窗口,专门跟 AI 聊怎么写提示词,也可以把你写的提示词先给 AI 过一遍。就可以得到很棒的提示词了。

下面我分享我自己写的一段提示词工程代码,因为这是用在一个英语学习工具里的代码,跟平时用聊天不一样,需要更加稳定的输出,而且格式也要固定,才能让后续的程序能够处理妥当。而且出于成本考虑,用的模型也比较便宜,就更需要提示词工程减少模型出错的几率。

第一段文字就是在给 AI 分配角色,并做出很细节的指导,我给一下第一段文字的翻译:
“您是一位英语专家,对词汇的复杂性有着深刻的理解。这包括单词用法和频率的知识。您可以分析单词列表,并找出那些对于熟悉一定数量最常见英语单词或词汇水平的非英语母语人士来说可能不熟悉或具有挑战性的单词。请记住,以英语为母语的人的平均词汇量为 15,000 个单词,但雅思考试成绩为 6 分的非英语母语者的平均词汇量为 5,000 个单词。考虑到给定的词汇水平,以 CSV 格式返回不熟悉的单词列表。如果您确实确定非英语母语人士知道所有单词,请返回:”none”。”
请注意我会先让 AI 知道它是一个英语专家,而且特别专长于词汇。然后还告诉它一些常见的英语评级下非母语的英语学习者和英语母语的人的词汇量情况。然后明确告诉它我需要CSV的返回格式。我几经测试,这样都还经常出先幻觉和格式错误。那么接下来我就连续给出了三个例子。
我格式化地给出一串英文单词,和用户的词汇量。然后例子里格式化地得到用户可能不认识的单词。这样下来效果非常漂亮。
这就是聊天机器人用上了提示词工程的应用方式。

我自己归纳了从简单到复杂的一个应用路线:
1- APP、网页端的聊天机器人 → 2- 在其他应用中接入 API → 3- 使用自己搭建的 AI 工具 → 4- 自己搭建开源模型
我们刚才讲的就是第一个应用场景。
那么第二个应用场景就是在其他应用中接入 API,这里需要对 API 有个简单的解释,API 就是Application Programming Interface 的缩写,翻译过来是应用程序接口。 我们写一个应用程序想用上那些大厂的 AI,就需要调用 API,而我调用的 API 要输入我自己的密码,因为用他们的 API 通常是按量付费,费用要算在自己的账号上。
但我们也可以不用自己写程序,现在很多软件已经带有了输入 API 的功能了。感兴趣的可以到 DeepSeek 官网上,右上角就有 API 开放平台,申请一个 API 就可以用了。印象中应该一开始是有免费额度的,所以不妨试试。
使用自己搭建的 AI 工具又是一个更加复杂的使用场景了。但是又能有更高的自由度,完成更多的工作。这里介绍几款代表性工具。Dify 是一个可视化 AI 工作流平台,你可以建立多步骤的工作流,每一步写一个提示词,上一步的结果直接喂给下一步——非常适合非技术背景的人搭建自己的 AI 流程。我找了一个截图,大家就能大致明白我的意思。

另一个更惊艳的方向是 AI 编程工具,以 Cursor 为代表,AI 深度融入代码编辑器,程序员只需用自然语言描述需求,AI 就能直接写出代码。这个领域有个新词叫 Vibe Coding——即”氛围编程”,描述的就是这种人机协作写代码的工作方式。2025-2026 年,AI 编程工具已经让”非程序员也能做软件”从梦想变成了现实。

所以,这个也不妨试试吧。
最后我认为普通用户,甚至普通公司能够用到的最高级的使用方法就是自己跑一个模型了。首先一个大语言模型要求不晓得硬盘空间,通常上百个 G。然后要不少的内存,我体会过起码要 8 个G 以上而且是关掉所有别的应用吧。最后也是最贵的,我们需要买不少的名贵显卡。普通电脑的显卡是跑不动大语言模型的。一买恐怕就 8 个 10 个。所以除非有明确的需求,好多公司都不会轻易投入自己的 AI 本地模型。
当然测试,或者单纯玩一玩,我们可以找蒸馏版本的模型,效果会比较接近被蒸馏的对象。为了达到更好的效果,那就又要请出我前面讲到的提示词工程。
除了 DeepSeek 的模型开源,著名的还算能用的开源模型有:Meta 公司的 LLaMA 3/4、通义千问的部分模型、Mistral 7B 等。注意,Anthropic 的 Claude 是闭源商业产品,不在此列。
这些模型都可以到这个地方找,哎,这个我都有点舍不得分享的地方:

叫做 hugging face,异形那个电影里的抱脸虫就叫 face hugger,完全跟这个公司萌萌哒 logo 联系不起来,外国人取名字很会开玩笑。这是个很年轻的公司,他们一开始就是自己在做 transformer 模型,或者做一些青少年的教学聊天机器人。后来他们自己做了一个 transformer 的搭建平台,叫做 transformers,仅仅加了个复数词缀”s”。所以他们真的很喜欢取奇怪的名字。
我们行业内一开始对他们有所了解,我自己偶尔也试用过他们的平台。他们是怎么出圈,为人所知的呢,主要就是靠 DeepSeek。DeepSeek 也将自己的模型开源在他们的平台上。
去他们的网页列表上前面第一名就是他们的 DeepSeek R1 模型。当然我刚刚也提过,一般的家用电脑很难拖的动一个大语言模型,那么我们就找蒸馏版本,看到名字里带有”Distill”的就是了。

希望今天的分享能给大家带来一些启发。感谢大家的聆听!

我最后给出了一些术语集,争取这次讲座后大家都不会被网上乱七八糟的课程给忽悠到。掌握一些术语会比较有用。既是一个回顾也补充一下可能没讲到的点。

一些术语 :

  • 对齐 Alignment:
    使人工智能系统的目标和行为与人类的价值观、意图和期望相一致的过程。OpenAI 联合创始人兼首席科学家 Ilya Sutskever 辞职,就是因为他不认同 OpenAI 不好好对齐就发布 ChatGPT 的做法。
  • 微调 Fine Tune:
    在一个已经预训练好的模型(通常是在大规模数据集上训练)的基础上,使用特定任务的数据集继续训练模型,使其适应特定任务或领域。
  • 幻觉 Hallucination:
    在生成式 AI 模型(尤其是大语言模型)中,指模型生成的内容与事实不符、无中生有、或与上下文矛盾的现象。
  • 思维链 CoT:
    一种提示(Prompting)技术,通过引导语言模型逐步推理,给出中间推理步骤,而不是直接给出最终答案,从而提高模型在复杂推理任务上的性能。
  • 涌现: (一本书叫涌现可以看看)
    在复杂系统中,当组成系统的各个部分相互作用时,整体上表现出单个部分所不具有的性质或行为。
    在 AI 中的含义: 指当大语言模型的规模(参数量、训练数据量)达到一定程度时,模型会突然表现出一些在小模型中没有观察到的能力,如复杂推理、上下文学习、多语言能力等。
  • RAG 检索生成:
    一种结合了信息检索(Retrieval)和文本生成(Generation)的技术,旨在提高生成式 AI 模型(尤其是大语言模型)的准确性、可靠性和知识覆盖范围。
  • Token:
    在自然语言处理中,将文本序列切分成一个个独立单元的过程称为分词(Tokenization),而这些独立单元就称为 Token。
  • 提示词 Prompt:
    输入给大语言模型的文本,用于引导模型生成期望的输出。
  • Context Window 上下文窗口:
    大语言模型在处理文本时能够考虑的最大的文本长度(通常以 token 数量表示)。
    有时候会用一些摘要方法来增加上下文窗口的大小,比如:分块、递归、关键字搜索。
  • 蒸馏:
    一种模型压缩技术,通过训练一个较小的模型(学生模型)来模仿一个较大的模型(教师模型)的行为,从而在保持一定性能的同时减少模型的规模和计算成本。
  • MoE (Mixture of Experts, 专家混合):
    一种特殊的神经网络结构,它将多个神经网络模块(称为”专家”)组合在一起,并使用一个门控网络(Gating Network)来决定在处理特定输入时应该激活哪些专家。

本文将详细介绍如何使用自己的API Key来调用Cline,帮助你更好地利用这个强大的AI代码助手。通过本文,你将了解如何将手中的算力主权(BYOK)转化为实际的生产力。

延伸阅读:BYOK 算力主权:AI 时代最值得学会的一件事(之一)

为什么 Cline + BYOK 是中国开发者的“版本答案”?

在当前的AI应用环境中,Cline 与 BYOK 结合使用,特别适合中国开发者,因为它解决了几个核心痛点:

1. 稳定,不封号

通过”AI加点油”提供的国内节点,你无需担心网络不稳定或账号被封的问题。所有请求都通过国内友好的API网关转发,确保服务的持续可用性。

2. 语言无障碍

Cline 支持设置中文为偏好语言,让你与AI的沟通更加自然流畅,无需翻译困扰。

3. 模型自由

你可以灵活选择国内外的顶级模型:

  • 海外模型:如 Gemini、Codex 等,适合复杂逻辑和高质量输出
  • 国产模型:如 DeepSeek、Qwen 等,性价比高,响应速度快

这种灵活性让你可以根据任务需求选择最适合的模型,实现极致的性价比。

核心配置:三步让 Cline 为你工作

第一步:安装 Cline 插件

在 VS Code 中安装 Cline 插件,这是你开始使用 AI 编程的第一步。

第二步:填入 API Key

从”AI加点油”获取你的专属 API Key,将其填入 Cline 的配置中。

第三步:配置 Endpoint

将”AI加点油”提供的 Endpoint 地址填入 Cline 的配置中,完成连接。

实战演示:让 Agent 帮你写代码

让我们来看一个真实的开发场景。假设你需要重构一个函数:

  1. 在 VS Code 中打开 Cline
  2. 输入你的需求:”帮我重构这个函数,使其更清晰易读”
  3. Cline 会自动分析代码并给出优化建议

进阶优化:把钱花在刀刃上

Cline 的强大之处不仅在于它能执行任务,更在于它支持不同的工作模式:

Plan Mode 与 Act Mode 的区别

  • Plan Mode:用于复杂的规划和设计,使用高性能模型
  • Act Mode:用于具体的执行和编码,使用高性价比模型

为不同模式配置不同模型

通过”AI加点油”提供的模型列表,你可以为不同的工作模式设置最优的模型组合:

例如:

  • 使用 Claude 3 Opus 做整体架构规划
  • 使用 Qwen 或 DeepSeek 做具体代码实现

这样既保证了质量,又控制了成本。

个性化你的 AI 助手

设置中文为偏好语言

为了让沟通更顺畅,你可以在 Cline 设置中将语言偏好设为中文:

总结

通过本文,你学会了:

  1. 如何将 BYOK 算力转化为生产力
  2. Cline 作为开发者工具的核心优势
  3. 如何配置 API Key 和 Endpoint
  4. 如何通过不同模型组合实现性价比最大化
  5. 如何个性化设置提升使用体验

现在,你已经掌握了使用”AI加点油”驱动 Cline 的完整流程。立即开始体验,让你的开发效率迈上新台阶!

⏳ 约3分钟 · 915汉字+71词

Markdown 格式最早的出现源于程序员们对 Word 排版反复无常的厌恶。因为你在 Word 里面的所有操作会被 Word 处理成藏在背后看不见的标签语言。这种不透明导致用户的意图和 Word 的解读经常不一致。
程序员们就想着要有一个透明的语言,写着是“标题”那里就是“标题”,写着是“加粗”的那个地方就是“加粗”。
于是 Markdown 很早就成了程序员写文档的默认格式语言。
那么可想而知,AI 被大量“投喂”的文档格式,就是 Markdown。


AI 读的不是字,是结构

把你的需求发给 AI,本质上是在把一段混乱的人类意图,翻译成机器能精确执行的指令。这个翻译过程,你以为只是”打了一段话”,AI 那边却在做大量的概率计算:哪部分是背景?哪部分是目标?哪部分是约束?

如果你只给了一团文字,AI 只能去猜。

Markdown 的作用,就是把这个”猜”变成”看”。

一个 ## 标题,告诉模型”这是一个新的主题锚点”。一个 - 列表,告诉模型”这些条件是平行的、独立的”。一个 **加粗**,告诉模型”这是最高优先级的关键词”。

这不是玄学,是模型训练的必然结果——GitHub、Stack Overflow、技术文档,这些 AI 摄取最多的高质量语料,几乎全是 Markdown 格式写的。用 Markdown 跟 AI 说话,相当于用它的母语和它沟通。


有数字为证

以下数据来自公开研究:

  • 仅仅加入清晰的 Markdown 标题和分隔符,模型的理解准确度可提升 31%
  • 在 Markdown 框架内嵌入示例,任务执行成功率比纯文字指令高出 58%

(以上两条来源:Reddit r/PromptEngineering 社区帖子「2 Prompt Engineering Techniques That Actually Work (With Data)」,该帖整理了多项实测对比数据。)

  • 相同内容,Markdown 格式消耗的 Token 仅是 PDF/DOCX 的 三分之一到八分之一

(来源:Bismart 技术博客「Markdown: The Best Text Format for Training AI Models」,附有格式对比表格。)

最后一条对重度 API 用户来说意义直接:Markdown 不只是更准,还更省钱。


三个上手就能用的场景

场景一:结构化你的 Prompt

不要再发一整段话了。试试这个格式:

1
2
3
4
5
6
7
8
9
10
## 任务
帮我写一封拒绝合作的商务邮件

## 背景
对方是我们的老供应商,关系还不错,但这次报价超预算 30%

## 要求
- 语气委婉但立场明确
- 不承诺下次合作
- 不超过 150 字

发出去,感受一下区别。

场景二:建一个”技能文件”

把你常用的复杂操作模式写成一个 skill.md,比如你喜欢的写作风格、常见的任务模板、固定的约束条件。每次开新对话时直接粘贴进去。

这是一种”拥有”你的 AI 的方式——不依赖某一家平台的记忆功能,你的指令,你管着。

场景三:你的笔记,变成 AI 就绪的数据集

如果你用飞书、Obsidian 或 Notion 记笔记(它们的底层都是 Markdown),你的知识库天然就是 AI 可以直接检索和分析的格式。而且现在越来越多的编辑器也支持 Markdown 了,建议打开新的编辑器试一试。


三分钟入门小tip

Markdown 没有学习门槛。核心语法六行就写完了:

1
2
3
4
5
6
# 一级标题
## 二级标题
**加粗** / *斜体*
- 列表项
1. 有序列表
> 引用块

掌握这六条,日常跟 AI 沟通已经够用。

如果你想更进一步,可以了解这几个进阶语法:

1
2
3
4
5
6
7
8
9
10
11
| 列一 | 列二 | 列三 |        ← 表格:整理对比信息
|------|------|------|
| 内容 | 内容 | 内容 |

```代码块``` ← 代码块:给 AI 看代码时必用,精确隔离
(三个反引号包裹)

- [ ] 待办事项 ← 任务清单:结构化你的 to-do
- [x] 已完成事项

~~删除线~~ ← 标注"不要这个"

进阶语法的共同价值:帮 AI 更精准地识别数据边界。表格告诉 AI”这些字段是平行的”,代码块告诉 AI”这段内容原样处理、不要解释”。

一个写得好的 Markdown 文档,不只是给 AI 读的。给人读,也更清楚。


为了让大家尽快掌握这个技能,我做了一个免费小游戏。
Markdown练习小游戏。浏览器输入网址 play.hawken.im,或者在本公众号(AI加点油)留言:play 就可以找到。

⏳ 约4分钟 · 1362汉字+133词

你上个月给 AI 充了多少钱?

如果你开着 ChatGPT Plus 的月订阅,$20 美元,折合人民币将近 150 块。你用它写邮件、改 PPT、偶尔生成几张图。但你有没有算过,这 $20 里,你实际消耗了多少算力——按 API 价格换算,可能连 $2 都不到。

剩下那 $18,你交的是界面税

这个问题在 2026 年有了答案,叫做 BYOK——
Bring Your Own Key
自带密钥


算力与界面,本来就该分开

BYOK 的逻辑极其简单:你自己去模型厂商(OpenAI、Anthropic、DeepSeek)开账户、充值、拿到 API Key,然后把这个 Key 填进你选择的工具里。工具负责好看、好用的界面和工作流;算力账单,你直接和模型厂商结算。

没有中间商赚差价。

这带来三个实在的好处:

成本透明。 你用了多少,花了多少,API Dashboard 上一清二楚。不再有”套餐剩余额度”这种模糊的焦虑。

数据主权。 你的文件、你的对话,直接走你的 API Key 打到模型厂商,不经过第三方工具的服务器做二次处理。对于有隐私敏感需求的场景(法律文件、财务报表、医疗记录),这一点至关重要。

无需科学上网(对国内用户尤其关键)。这是 BYOK 在国内爆发的真正原因,下面展开说。


自定义 Endpoint:BYOK 的隐藏必杀技

大多数优质的 BYOK 工具都支持一个叫做”自定义 Base URL”或”自定义 Endpoint”的功能。

原理很简单:把 API 请求指向你选择的服务商地址——比如国内直连的 SiliconFlow、DeepSeek,或者 OpenDataSky 这类聚合平台。只需改一行地址,就能稳定调用各类顶尖模型,完全不依赖特殊网络环境。

这种设计让 BYOK 在国内真正落地:你可以用 DeepSeek、Qwen 等国内模型处理日常任务,也可以通过国内友好的 API 平台接入海外模型能力——选择权完全在自己手里。

一个 BYOK 工具支不支持自定义 Endpoint,已经成为判断它是否值得国内用户使用的第一道门槛


5 款值得充钱的 BYOK 工具

以下推荐面向已有 API 额度的用户,逻辑是:你手里有算力,这些工具帮你把算力用到极致。

1. Cline — 编程的尽头是 Agent

如果你写代码,Cline 是 2026 年非常值得关注的工具。它是一个 VS Code 插件,但叫它”插件”是低估了它——它是一个能读写文件、执行终端命令、启动浏览器测试的自主 Agent。你描述需求,它去干活。

配合 MCP(模型上下文协议),Cline 可以连接你的数据库、本地工具、浏览器,变成一个真正意义上的”数字员工”。接入国内中转网关后,用 Claude Opus 级别的模型驱动它,几分钟重构一个中型项目不是夸张。

适合:开发者,对 API 性价比要求高的人。

2. 沉浸式翻译 — 信息平权的利器

读英文长文、学术 PDF、看外网视频字幕——这些需求,沉浸式翻译(Immersive Translate)几乎已经做到了极致。它最聪明的地方在于极度开放:支持接入 DeepSeek、SiliconFlow 等国内直连的 API,甚至任何自建的兼容接口。

用国内 API 翻译,几乎是零成本。翻一整篇学术论文,可能花费不到一分钱。

适合:需要大量阅读英文信息的用户,研究者,学生。

3. LobeChat — 私有化 AI 总机

如果你手里有多个 API Key,LobeChat 是体验出色的聚合终端。Docker 部署一次,支持 20 多个 AI 服务商,支持 DALL-E 绘图、语音交互、插件系统。放在国内云服务器上,永远不用担心访问问题。

它完全开源,你的数据只在你的服务器上。这才是真正意义上的”私有化 AI 助理”。

适合:有一定技术能力、想要搭建个人 AI 工作台的用户。

文生视频的 API 贵,但 Vimerse Studio 通过接入 EvoLink 这个聚合层,让一个 Key 能调用 Kling、Seedance 等多个顶尖视频生成模型。哪个效果好用哪个,按需付费,不浪费一个 Token。

对比官方平台动辄几百元一月的订阅,这种按量付费的方式,能把有限的预算集中在真正出片的环节上。

适合:短视频创作者,视觉内容生产者。

5. Translate Lens — 极简主义者的选择

Steam 上有一款叫 Translate Lens 的软件,采用一次买断的商业模式,你买的是功能壳子,算力自己提供。支持 GPT-5、Gemini 2.5、本地 Ollama 模型。

它最极端的用法:完全离线,本地显卡跑 Llama 4,数据不经过任何云端服务器。云服务全挂了,它照样工作。

适合:Windows 用户,追求隐私和极简方案的人。


2026 BYOK 工具全景一览

工具 用途 平台 自定义 API 国内友好度
Cline 编程 Agent VS Code ⬛⬛⬛⬛⬛ ⬛⬛⬛⬛
沉浸式翻译 网页/PDF 翻译 插件 / 移动端 ⬛⬛⬛⬛⬛ ⬛⬛⬛⬛⬛
LobeChat 全能 AI 聊天 Web / Docker ⬛⬛⬛⬛⬛ ⬛⬛⬛⬛⬛
Roo Code 多模式编程 Agent VS Code ⬛⬛⬛⬛⬛ ⬛⬛⬛⬛
Aider 终端配对编程 CLI ⬛⬛⬛⬛ ⬛⬛⬛
Vimerse Studio 视觉生成 Web ⬛⬛⬛ ⬛⬛⬛
Translate Lens 翻译 / 离线 AI 桌面 (Steam) ⬛⬛⬛⬛ ⬛⬛⬛⬛⬛
CodeGPT 团队代码辅助 VS Code / JetBrains ⬛⬛⬛⬛ ⬛⬛⬛⬛
Knolli 安全 PDF 分析 Web / 私有云 ⬛⬛⬛⬛ ⬛⬛⬛⬛
Kilo Code 企业 BYOK 网关 IDE / CLI ⬛⬛⬛⬛⬛ ⬛⬛⬛⬛

(之一)这个后缀不是谦虚的修辞。下一篇,我想聊的是另一件同样值得学会的事:Markdown——写作者的”自带格式”。

如果你还没有 API Key,或者不想自己管理充值和账单,AI加点油 可以帮你解决这个问题——它直接为用户提供可用的 Key,让你跳过繁琐的开户流程,直接进入 BYOK 的工作流。

⏳ 约3分钟 · 1184汉字+31词

FOMO的朋友来看这篇,心里会舒坦点(因为我帮你们FOMO了)


最近中文 AI 圈又炸了。

每隔几个月就有一轮这种狂欢。记得上次是Manus,上上次是Claude Cli,或者 Gemini, OpenAI, Claude 御三家轮流炸裂。
这次轮到小龙虾。我相信有很多人跟我一样,看到这些推文的时候心跳加速,生怕自己落后了。

我也是,所以我去试了。

结论先说:等等党永远胜利。


第一轮:服务器直接被吃垮了

我的服务器跑过不少东西,博客、各种 Web 应用、定时任务,从来没出过问题。我寻思,把小龙虾丢上去顺手跑着,安全而且保持在线。
结果小龙虾一上来,把我服务器资源吃了个光,尝试三次都直接卡死,只能重启。好,转本地。。


第二轮:本地安装,一场持久战

本地装也不轻松。光是把源码拉下来、编译、安装,就花了相当长的时间。
中途还遇到各种依赖问题,一个报错接一个报错。
难怪咸鱼上可以挂500块”帮你安装小龙虾”,我非常能理解他们的底气了。


第三轮:配置,配置,还是配置

装好还没完。接下来是配置。

  • 先去申请电报机器人 Token
  • 再去申请大模型的 API Key
  • 然后为了”赋能”,还需要再接入一堆第三方应用
    每一步单独拿出来都不难,但叠在一起,一个下午就没了。

第四轮:终于跑起来了……但是

一切配置完毕,从命令行启动小龙虾。
等待。
继续等待。
大概等了十秒以上,它才起来。
我当初装Claude Code,作为一个功能相当重的 CLI 工具,启动也就两三秒。
小龙虾一个命令行工具,为什么要让我等这么久?


然后呢?它能干什么?

好,它终于跑起来了。我期待地问:你能帮我干什么?
帮我整理邮箱?帮我整理文件?帮我整理公众号素材?

……

等等,这些我已经有 Gemini 和 Claude 了,而且他们一直做得很好。
我已经算是中重度 AI 依赖用户了。MCP、Skill,我都在日常用,而且就这两样,已经绰绰有余,覆盖了我工作里大量的重复劳动(如果你也想了解这套工作流,可以看我之前写的:MCP 懒人包:AI的”万能插头”Skill 懒人包:让AI变成你的”专属员工”AI的”大脑”和”双手”的一场激烈争论,普通用户需要知道这些吗?)。

在这个基础上,小龙虾能帮我做什么?所以就真的安排不下你的工位啊亲!


那些”小龙虾分析股票”、”小龙虾帮你赚钱”……

就更不用说了。
凡是打着 AI 帮你赚钱旗号的,有一个算一个,都是噱头。
如果一个工具真能稳定帮人赚钱,它的作者早就自己用了,不会把教程挂出来卖你 99 块。

比如,我记得昨天在x特上还看到有人吹牛说赚了一辆特斯拉,结果打开就是标题党,第一段就是说其实赚的不是整车是首付,然后接着看,其实赚的是帮别人做软件开发的项目经费……那项目经费还有成本呢,搞下来真的“赚”的到特斯拉首付?(😀)


最后说两句

我理解那种 FOMO。中文 AI 圈这股”炸裂”风确实能让人焦虑——每天刷到”颠覆”、”必学”、”你还没用就落后了”,你很难完全无动于衷。
我就是那种超级容易焦虑被人煽动的人——之前写过一篇文章,凌晨3点从梦里惊醒,第一件事是摸向键盘,在黑暗里焦虑着”键盘会不会像算盘一样被淘汰”……那种感觉,懂的都懂。
但我替你们试过了。至少现在,没必要慌。

小龙虾还有很长的路要走:安装门槛太高、资源消耗太大、启动太慢、实际能解决的问题和现有工具高度重叠。它现在的状态,更像是一个对技术细节感兴趣的人的探索玩具,而不是一个能真正提升普通用户工作效率的成熟工具。

真的,我这套搞下来,我非常怀疑那些营销号号主究竟装过小龙虾用过小龙虾没有。

Anyway,现在我宣布加入等等党,我们一起胜利。


最后的最后挖个坑:我作为产品经理,对小龙虾有些自己的想法——它有不少可以改进的地方,我可能会试着做点什么。下回分解。

⏳ 约2分钟 · 678汉字+97词

前段时间 Claude Code 在开发者圈子刷屏。它最让人眼前一亮的不是 AI 有多聪明,而是它的三套机制CLAUDE.md(持久化工作规范)、Memory(跨会话记忆)、Skills(可复用命令工作流)。

然而 Claude Code 在国内几乎无法直接使用——注册难、付款难、连接不稳定。

我花了两天把这套机制搬进了 OpenClaw,做成了一个开箱即用的配置包,叫 GoClaw(加油小龙虾)


OpenClaw 是什么

OpenClaw 是一个开源的本地 AI 代理,2026 年初 GitHub stars 超过 25 万。它的核心设计和 Claude Code 几乎同构:

机制 Claude Code OpenClaw
持久化身份/规范 CLAUDE.md SOUL.md
跨会话记忆 Memory 系统 MEMORY.md
可复用工作流 Skills Skills(ClawHub)
本地执行能力 CLI 原生 文件/Shell/浏览器

OpenClaw 支持任何兼容 OpenAI 格式的 API——这正是 aijia.you 提供的。


GoClaw 做了什么

GoClaw 是一套预配置文件包,不修改 OpenClaw 本体,只提供:

  • SOUL.md:把 OpenClaw 的默认人格改造成编程助手,中文沟通、代码英文、Git 操作默认授权、破坏性操作二次确认——跟 Claude Code 的工作方式高度一致
  • MEMORY.md:结构化的初始记忆模板,引导 AI 从第一次对话起就记住你的项目和偏好
  • 5 个内置 Skill/commit/review/explain/fix/docs——复刻 Claude Code 最常用的功能

模型通过 aijia.you 调用,无需境外信用卡,按用量付费,新手月均消耗约 ¥5-20。


3 步上手

第 1 步:安装 OpenClaw

前往 openclaw.ai 下载对应系统的安装包:

  • macOS:下载 .dmg,安装后菜单栏出现图标
  • Windows:下载 .exe,Defender 警告选「仍要运行」

第 2 步:配置 aijia.you API

打开 OpenClaw 设置 → API Provider,填写:

1
2
3
Provider Type : OpenAI Compatible
Base URL : https://aijia.you/v1
API Key : sk-xxxxxxxx(从 aijia.you 控制台复制)

还没有 aijia.you 账号?点这里注册,新用户有体验额度。

推荐入门模型:gemini-2.0-flash(速度快、价格低、中文质量好)。

第 3 步:部署 GoClaw 配置包

1
2
3
4
5
6
7
# clone 仓库
git clone https://github.com/hawken-im/goclaw.git
cd goclaw

# Mac / Linux:复制到 OpenClaw 数据目录
cp SOUL.md MEMORY.md ~/.openclaw/
cp -r skills/* ~/.openclaw/skills/

Windows 用户:把 SOUL.mdMEMORY.mdskills\ 目录手动复制到 C:\Users\你的用户名\.openclaw\

重启 OpenClaw,配置立即生效。


用起来什么感觉

配好之后,你可以在 OpenClaw 支持的任意频道(Telegram、Discord 等)发送:

1
/commit

GoClaw 会自动读取你的 git 暂存区改动,分析提交历史风格,生成一条规范的 commit message,等你确认后直接提交。

1
/review src/auth/login.js

读取指定文件,按「必须修复 / 建议改进 / 值得保留」三级输出审查报告。

1
/fix

把报错信息扔给它,自动定位文件和行号,展示修改前后对比,等你确认后执行。


核心差异与限制

GoClaw 不是 Claude Code 的完美复制:

  • 接口不同:Claude Code 原生在终端,GoClaw 主要通过 Telegram/Discord 交互(更适合移动场景)
  • 模型不同:你用哪个模型取决于 aijia.you 的供应,Claude Code 绑定 Claude 系列
  • 执行权限:OpenClaw 的本地执行能力取决于你的安装配置,默认权限比 Claude Code 更保守

但对于无法使用 Claude Code 的中国用户来说,这已经是目前最接近的体验。


GitHub 仓库:hawken-im/goclaw

API 来自:aijia.you — 国内可用的 AI API 聚合平台,支持 Claude / GPT-4 / Gemini

⏳ 约3分钟 · 843汉字+66词

你在 Cline 里用免费模型跑任务,跑着跑着突然蹦出来一行红字:

1
429 Request was rejected due to rate limiting. Details: TPM limit reached.

任务中断,前功尽弃,还要重头来。

这不是你的错,这是免费模型的游戏规则:TPM(Tokens Per Minute)限速。本文教你用几个组合拳,让 AI 降速跑,榨干免费额度,再也不触红线。


为什么会被限速?

主流免费模型的限制通常有三种:

类型 含义 最容易触发场景
TPM 每分钟 Token 数上限 AI 疯狂输出长代码、读大文件
RPM 每分钟请求次数上限 Cline 连续快速调用工具
RPD 每天请求次数上限 跑了一整天任务

Cline 的问题在于:它默认”能快就快”。读文件、写代码、回复确认——一口气连续调用十几次 API,每次都带着大段上下文,TPM 很快就爆了。


方案一:Cline 内置请求延迟(最直接)

打开 VS Code 设置,搜索 cline,找到 “API Request Delay (ms)”(也可能叫 Rate Limit Delay)。

设置一个延迟,比如 3000ms(3秒),Cline 每次工具调用之间都会暂停 3 秒。

  • 优点:零成本,一键生效
  • 缺点:整体变慢,但不触限速

这是最暴力也最可靠的方法。跑不急的长任务推荐先把这个打开。


方案二:用 .clinerules 限制 AI 的 Token 消耗行为

.clinerules 是写给 AI 的”工作守则”,放在项目根目录,每次 Cline 启动新 Task 都会读取。你可以用它来约束 AI 的输出风格,从源头减少 Token 消耗。

在你的 .clinerules 文件里加入这一节:

1
2
3
4
5
6
7
## 省 Token 守则(免费模型限速保护)

- **输出精简**:每次工具调用后只汇报关键状态,禁止复述操作细节
- **按需读文件**:只读任务直接相关的文件,不做"预防性探索"
- **分批执行**:完成当前步骤后暂停,等待我确认再继续,不要连续发起超过 3 次工具调用
- **只输出差异**:修改代码时只展示被改动的代码段,不输出整个文件
- **规划先行**:执行复杂任务前先用文字列出步骤,确认后再开始执行

这几条规则的逻辑:

  1. 精简输出 → 减少每次响应的 output tokens
  2. 禁止无效文件读取 → 减少 input tokens(大文件上下文是 TPM 杀手)
  3. 分批+等确认 → 人为拉长两次 API 调用之间的间隔
  4. 只输出差异 → 大幅减少代码类任务的 output tokens
  5. 规划先行 → 一次思考替代多次摸索,减少总调用次数

实测下来,加了这几条之后,同样的任务 Token 消耗可以降低 40-60%。


方案三:多 Key 轮换

大部分免费模型的限额是按 API Key 计算的。如果你能注册多个账号,就能轮换使用多个 Key,变相突破单 Key 限额。

Google Gemini 免费额度为例(目前是免费模型里最豪的选项之一):

  1. 用不同 Google 账号在 Google AI Studio 各申请一个 API Key
  2. 在 Cline 设置里切换 Key(跑满一个换下一个)
  3. 或者把多任务分配给不同 Key 并行跑

这个方法有点繁琐,但对于跑量大的批处理任务很有用。


方案四:混合使用付费 + 免费(最推荐)

免费模型限速的根本原因是它处理的 Token 太多了。聪明的做法是:

  • 简单/重复性任务 → 免费模型(代码格式化、简单问答、小文件修改)
  • 需要大上下文的复杂任务 → 付费模型(跨文件重构、长文生成)

在 Cline 里可以给不同任务类型预设不同的模型配置。复杂任务偶尔花几分钱,换来不限速地畅快跑,其实更划算。


一个实用的 .clinerules 模板

把这段直接贴到你项目的 .clinerules 末尾:

1
2
3
4
5
6
7
8
9
10
11
---

## 免费模型限速保护规则

**触发条件**:当你使用免费 API(如 Gemini Free、Step-3.5-Flash、OpenRouter 免费模型)时,必须遵守以下规则。

1. 每完成一个独立步骤后暂停,输出"✅ [步骤名] 完成,是否继续?"并等待确认
2. 读取文件前先确认是否必要,每次 Task 最多读取 5 个文件
3. 代码修改只输出变更的函数或代码块,绝不输出完整文件
4. 回复长度控制在 300 字以内,技术细节按需展开
5. 遇到不确定的地方,提问而不是猜测并尝试

小结

方案 难度 效果 推荐场景
Cline 请求延迟设置 ✅ 稳定 所有免费模型
.clinerules 省 Token 规则 ⭐⭐ ✅✅ 显著 日常开发任务
多 Key 轮换 ⭐⭐⭐ ✅✅✅ 高 批量任务
免费+付费混用 ⭐⭐ ✅✅✅ 最优 长期使用

如果你有其他躲过限速的方法,欢迎在评论区分享。

0%