为什么堆算力救不了大模型

English version →

我的日常工作是训练大模型和构建Agent应用。这篇文章来自一线实践中反复撞到的一个结构性问题。

一个拥有百万token上下文窗口的大模型，可以在几秒钟内消化一整本书的信息。但如果你让它执行一个需要三个月迭代、中间环境不断变化的真实任务，它的表现会让你怀疑人生。

它不是不聪明。它是不收敛。

这篇文章试图从底层解释：为什么会这样，以及这件事对人和AI的分工意味着什么。

一、两条路径

大模型和人类大脑，都在从经验中归纳规律。区别不在于谁更聪明，而在于对模型复杂度的偏好不同。

硅基路径：追求尽可能复杂的模型。

Transformer架构的核心策略是统计拟合——参数越多，拟合训练分布的精度就越高。Scaling Law告诉我们：算力越猛、数据越大，模型就能捕捉到越细微的模式。这条路的哲学是：尽可能精确地编码当前环境的每一个细节。

碳基路径：追求尽可能简单的模型。

人脑只有20瓦功率，工作记忆一次只能处理七八个信息块。这个硬件限制逼出了一套完全不同的策略：不去编码所有细节，而是主动丢弃绝大部分信息，只留下那几条变量最少的规律。这些规律精度很低——粗糙、模糊、丢失了大量细节。但简单模型有一个复杂模型做不到的特性：它不依赖任何特定的时间、地点或环境条件。跨时间、跨空间、跨环境，依然成立。

打个比方。精确拟合像量体裁衣的西装——合身，但只适合一个场合，换个场景就尴尬。粗糙压缩像一件宽松的冲锋衣——不好看，但刮风下雨爬山都能穿。

一句话概括：

AI追求精确但脆弱的拟合。人追求粗糙但不变的压缩。

这不是优劣之分。这是两种策略对不同类型问题的适配差异。而正是这个差异，决定了它们各自能解什么问题、不能解什么问题。

二、各自的底牌

从上面的路径差异出发，双方表现出的具体能力就不难理解了。

硅基的三张牌

这三个优势，都是”精确拟合+算力暴力”这条路径的自然衍生：

长上下文。 你忘了的东西它还记得。它能在几十万字的废弃信息中，翻出那些人类早已过滤掉的微弱关联。

高带宽。 你一天看不完的报告，它一秒全吞了。它的信息触达面几乎没有上限。

强执行力。 你连续工作八小时会累、会犯低级错误；它跑一个月的长链条任务，第一天和最后一天的错误率一样低。它不消耗意志力，不知疲倦。

碳基的三张牌

这三个优势，都是”20瓦硬件限制”逼出来的演化必然：

过滤。 知道什么不重要，比知道什么重要更重要。人脑天生带一个极其强悍的噪音过滤器——它让我们在信息洪流中，不需要处理所有东西就能直奔主干。

节能。 一碗饭的热量就能驱动一整天的复杂决策。这意味着我们可以在几乎不消耗外部资源的情况下，完成方向性判断。

不变性建模。 这是三张牌里最关键的一张。人类倾向于建立简单到近乎粗糙的模型——”供需决定价格”“人在恐惧时会非理性”——这种模型丢失了海量细节，但恰恰因为足够简单，它不依赖任何特定的时间、地点或环境条件。十年前成立，现在成立，换一个国家大概率也成立。

一个常见误解

“AI没有情绪所以更理性。”——人的风险厌恶不是非理性的bug。它是基因在几十亿年生死淘汰中计算出来的最优生存策略——一种极其冷酷的、经过真实代价验证的优化结果。

三、收敛性：唯一重要的边界

前面铺了两条路径和各自的底牌，现在回到开头的问题：为什么大模型在某些任务上表现惊艳，在另一些任务上彻底崩盘？

答案藏在一个概念里：收敛性。

一个策略能否收敛，取决于它依赖的假设会不会变。如果你的模型建立在不变的东西上——比如物理定律、人性的基本结构——那无论环境怎么迁移，误差都在缩小。如果你的模型建立在当前环境的细节上——比如这个季度的市场偏好、这批用户的行为模式——那环境一变，误差就开始放大。前者收敛，后者不收敛。

收敛的本质是误差衰减：你犯了一个小错，系统会把它吸收掉，最终回到正轨。不收敛的本质是误差放大：你犯了一个小错，系统把它指数级放大，直到完全失控——这正是蝴蝶效应的准确含义。

收敛与不收敛

可收敛的世界：AI的绝对领地

一个系统如果满足以下条件，它就是可收敛的：

规则闭环——游戏规则不会中途改变
反馈即时——做对做错马上知道
环境稳定——今天有效的策略明天还有效

在这样的世界里，AI的精确拟合是绝对王牌。环境不变，拟合得越精确就越接近最优解。堆更多算力、更多数据，误差稳定缩小，答案越来越近。

举一个已经发生的例子：代码编译。十年前，”这段逻辑对不对”是一个开放问题——你写完代码，可能要等用户反馈才知道是否正确。但今天，编译器、类型系统和自动化测试构成了一个完美的即时反馈沙盒。在这个沙盒里，AI可以疯狂试错，每次试错成本近乎为零，每次反馈即时且精确。所以AI写代码的能力在飞速收敛。

所谓”沙盒化”，就是人类用工程基建，强行把一个开放问题变成可收敛的封闭系统。

不可收敛的世界：AI的结构性死穴

但真实世界的大部分场景不长这样。它们的特征是：

反馈周期极长——做了一个决定，可能两三年后才知道对不对
环境持续迁移——今天有效的策略，下个月可能因为政策变化、市场突变而完全失效
微小偏差不断放大——每一步的误判都在累积，且越到后面偏离越大

在这样的世界里，AI的精确拟合反而变成了致命缺陷。它拟合得越精确，就越绑死在训练时的数据分布上。环境一迁移，那些精确到小数点后四位的”最优策略”瞬间变成废纸。

而人类那些”粗糙但不变”的模型，恰恰因为从未依赖任何特定环境的细节，所以环境怎么变它都不崩。”这个人底层靠不靠谱”——这个判断在十年前、现在、换一个行业，大概率都成立。

再看一个具体例子：投资一个人或一家早期公司。三年才有一个真实反馈。中间市场环境突变无数次。AI的精确拟合——基于历史数据的统计模式——在第一次环境迁移时就碎了。能穿越这三年的，是投资人脑子里那几条极简的、粗糙的、不依赖特定市场环境的判断规则。

大模型的硬顶

现在可以精确地回答开头的问题了：

大模型每一步推理都有微小的统计误差。在可收敛的系统里，这些误差被环境的即时反馈修正掉了，所以表现惊艳。在不可收敛的系统里，这些误差没有任何东西来修正，它们一步步复利放大，直到输出完全偏离现实。

这不是”还不够强”的工程问题。这是统计拟合这条路径在面对误差放大系统时的数学宿命。堆更多参数、更长上下文、更多训练数据，都不能改变这个事实——因为问题不在精度不够，而在精度本身就是脆弱性的来源。

四、分工的临界点

如果你接受了第三部分的推导，那么人和AI的分工逻辑就变得清晰了。

博弈结构

人类干预 = 用不变性模型预判方向。 好处：避免AI在不收敛的环境中鲁莽执行、指数级烧钱。代价：人类的模型太粗糙，可能剪掉那些反直觉的、本来能通向意外成功的路径。

AI自主执行 = 在可收敛的沙盒内暴力穷举。 好处：找到人类凭直觉想不到的精确解。代价：一旦出了沙盒，鲁莽执行的资源损耗会被误差放大效应指数级吞噬。

什么时候该让人拍板，什么时候该放手让AI试——取决于试错的代价有多大，以及系统是否在收敛。

这两者之间存在一个动态的均衡点。

什么在移动这个均衡点

答案是：沙盒基建。

每当工程基建把一个原本不收敛的领域成功改造成可收敛的封闭系统——就像编译器和自动化测试改造了代码世界——AI的安全领地就多一块，均衡点就向AI方向移一步。

这引出一个对产业至关重要的判断：

未来AI产品的核心竞争力，不是模型更大、上下文更长。而是谁能把更多的真实任务变成可收敛的封闭环境。做更好的沙盒，比做更大的模型更重要。

为什么人类不会出局

最后一个问题：如果沙盒基建不断推进，AI的领地越来越大，人类最终会不会被彻底挤出去？

不会。原因有三：

第一，世界整体不收敛。局部可以被工程基建封装成沙盒，但整体不行。真实世界的规则在不断突变，新的不确定性在不断涌现。

第二，未做的事永远比已做的事多。旧世界被沙盒接管了，人类就去开拓新世界。人类社会并不是一个存量博弈。

第三，只要环境还在变，”粗糙但不变”就永远比”精确但脆弱”值钱。这是数学性质决定的——在误差放大的系统里，不变性是唯一能穿越时间的东西。

碳基用20瓦画一根不变的线。硅基用兆瓦把线两边精确地填满。