2025-12-22 04:17:26 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 文章探讨了当前大语言模型(LLM)的局限性，包括ScalingLaw边际效益递减、缺乏世界模型和因果认知能力，以及无法持续学习的问题。作者认为LLM只完成了智能的一半(知识压缩与提取)，但缺乏实时权重更新能力。文章介绍了Google最新提出的NestedLearning框架及其HOPE架构，通过嵌套学习、连续体记忆系统和惊奇值驱动等机制，试图解决灾难性遗忘问题，实现AI的持续学习。作者认为这是通往AGI的关键一步，未来AI将不再有训练与推理的二元对立，而是通过持续学习不断进化，成为真正理解世界的智能体。 综合评分： 86 文章分类： AI安全,漏洞分析,安全建设,技术标准,其他

cover_image

Google最新研究给我解惑了：大模型只是概率预测吗？

原创

chengable

安全产品人的赛博空间

2025年12月16日 10:01 浙江

最近这段时间，我一直在高强度地补课 LLM并陷入了一种对AGI的反思。

这种思考的源头，大概要追溯到那篇惊世骇俗的《Attention is All You Need》。后来，Karpathy 对 LLM 那一系列深入浅出的讲解视频，让我对“LLM 只是输出概率，但不认知世界”这个说法，有了更具象的认知。

但随着 Scaling Law似乎开始撞墙，一种隐约的焦虑感在整个行业蔓延。强化学习之父 Richard Sutton 更是直接泼了一盆冷水，他认为我们现在的路子可能走歪了。

这种焦虑在今天看完 Google最近发布的论文 《Nested Learning: The Illusion of Deep Learning Architecture》 后，转为一种豁然开朗。这篇论文不仅是一个新架构，更像是一种哲学层面的拨乱反正。

我想借这篇论文，和大家深入聊聊我最近对 LLM 发展路径的思考：我们到底是不是在一条死胡同里？

一、萨顿的冷水与 Scaling Law 的黄昏

1.1 萨顿的质疑：概率模仿并非真智能

强化学习之父、图灵奖得主Richard Sutton面对当前的LLM技术路线，发出了尖锐的质疑：当前的大语言模型可能是一条通往AGI的死胡同 。

萨顿的核心论点直击LLM的命门：LLM本质上是在模仿，而非理解世界。

首先，缺乏世界模型与因果认知。萨顿指出，LLM学习的是“人类会说什么”，而不是“世界实际上发生了什么” 。它们是文本统计规律的极致拟合者，而非物理现实的交互者。当一个模型预测下一个token时，它并没有关于未来的“预测”或“意图”，它只是在计算过去数据的条件概率分布。真正的智能需要建立内部的世界模型，能够推演“如果我做A，世界会发生B”，而LLM仅仅是在拟合“如果有人说了A，他大概率会接着说B” 。

其次，目标缺失与被动性。真正的智能体应当具有改变环境的主观目标。而LLM的唯一目标是降低预测误差。这种被动的、旁观式的学习方式，导致模型无法像生物体那样通过“行动-反馈-修正”的闭环来建立因果认知。萨顿认为，没有与环境的交互，没有对结果的奖惩反馈，智能体就无法验证真伪，只是在“幻觉”与“事实”的概率分布。

最后，也是最关键的一点，缺乏体验与持续学习的能力。萨顿强调，智能源于主体与环境的交互体验。LLM不仅从未“活”过，甚至在预训练结束后就“死”了——它们的权重被冻结，不再随时间变化。这种静态的存在方式与智能的动态本质背道而驰。一个无法在部署后从新数据中实时学习系统，本质上只是一个巨大的、静态的知识压缩包，而非适应未来的智能体。

1.2 Scaling Law的边际效益递减

支撑过去五年AI繁荣的核心信仰是Scaling Law，即模型性能与算力、数据量和参数量呈幂律关系。然而，到了2025年，这一信仰开始遭遇物理与经济的双重天花板。

对数诅咒正在显现。要获得线性的性能提升，我们需要指数级地增加算力和数据。从GPT-3到GPT-4，我们或许消耗了10倍甚至100倍的资源。然而，要实现同样的性能跨度到GPT-5，可能需要100倍于GPT-4的资源。硬件摩尔定律已无法追赶Scaling Law的需求。这导致了边际成本的指数级上升和边际收益的线性下降。

数据枯竭是另一大瓶颈。高质量的人类文本数据几乎已被穷尽。虽然合成数据被寄予厚望，但模型在自我生成的数据上训练导致方差丢失和认知退化始终是一个问题。

此外，基准测试的饱和也让这种堆参数的策略显得疲态尽显。在MMLU、GSM8K等主流测试集上，前沿模型的得分已逼近90%甚至更高。这种分数的提升在实际应用中的体感差异越来越小。即使投入数千亿美元建设的数据中心，若只能换来在极端长尾问题上1%的提升，这种商业模式将难以为继。

业界开始意识到，堆参数的时代可能正在结束。正如内燃机在达到热效率极限后，仅仅增加气缸数量不再是出路一样。难道这波 AI 浪潮，真的要止步于此？

二、 LLM 没走错，只是刚走完一半

面对质疑，我的观点可能稍微乐观一点：大模型这条路没走错，它只是才走到一半。

目前的 LLM 解决了一个核心问题：知识的压缩与提取。通过极其昂贵的预训练，我们成功地把人类文明的静态知识压缩进了一个神经网络里。它让 AI 拥有了世界观，拥有了底层的常识。

但它确实是不完整的。

2.1 只有“长时记忆”的人脑

如果将LLM类比为人类大脑，它处于一种极其怪异的状态。

首先，它拥有渊博的静态知识。通过预训练，它压缩了整个人类互联网的知识。这些知识是结构化的、稳定的，构成了模型的世界观。

其次，它拥有极短的工作记忆。通过上下文窗口，它可以处理几百万字。这相当于工作记忆。这是模型唯一的动态部分，但它是不持久的。

最致命的是，它患有遗忘症。这是最关键的缺陷。无论你在对话框中告诉它什么，无论它在交互中犯了什么错并被纠正，一旦对话结束，这些信息随风而逝，永远不会改变模型底层的权重。

当前的LLM是一个Read-Only的智能体。它的知识截止于预训练结束的那一刻。这种冻结状态使得模型极其脆弱，面对新知识（如最新的API文档、昨天的新闻）时，只能依赖RAG这种外挂式的小抄，而非真正的学习。RAG虽然缓解了信息获取问题，但它并未改变模型的认知结构，模型并没有学会新知识，只是看到了新知识。

2.2 预训练的局限

预训练成本极高，然而，这种一次性构建，终身使用的模式在动态世界中注定失效。人类大脑并不是先在学校里预训练20年，然后冻结大脑去工作。人脑是时刻在进行输入+实时更新权重的持续学习系统 。每一次对话、每一个错误的决策、每一次新奇的体验，都会微调我们神经元之间的突触连接强度。这种实时可塑性才是生物智能适应环境的核心。

萨顿所批评的模仿，正是因为模型只能回放预训练中见过的模式。如果模型具备了持续学习能力，它就能在部署后通过与用户的交互，不断修正自己的预测，从而从模仿者进化为适应者。

结论：LLM解决了知识压缩和语言生成的问题，这完成了智能的一半。剩下的另一半—持续适应、实时权重更新与记忆固化—正是通往AGI的门槛。

三、为什么我们不敢让 AI “实时更新”权重？

为什么不直接放开，让模型在聊天时一边聊一边通过梯度下降改参数呢？

业界有个几十年的老迈过不去的坎：灾难性遗忘。

3.1 灾难性遗忘：新知识会完全打破旧知识

在神经网络中，知识分布在所有参数的权重之中。当你为了学习“B知识”而调整权重时，这些权重中原本编码的“A知识”就会被破坏。

对于LLM而言，这种遗忘是毁灭性的。

全局破坏：如果你试图教会一个已经训练好的LLM关于“2025年美国大选结果”的新知识，稍微调整参数，它可能就会忘记“美国第一任总统是华盛顿”，甚至忘记基本的语法结构。因为反向传播会为了最小化当前任务的Loss，不惜牺牲对旧任务的拟合。
稳定性-可塑性困境：这是深度学习的核心难题。为了保持旧知识的稳定，我们倾向于冻结权重；为了获得新知识的可塑性，我们必须更新权重。现有的架构难以兼得。

3.2 LoRA与微调的局限：虚假的持续学习

为了绕过灾难性遗忘，业界发明了LoRA等参数高效微调（PEFT）技术。LoRA并不改变原始模型的权重，而是旁路增加一小部分可训练参数。这看起来像是解决方案，但实际上存在严重局限：

无法无限叠加：你不能为每一个新任务都挂载一个LoRA。随着任务增多，管理成千上万个Adapter会导致推理延迟和系统复杂度爆炸。
知识隔离：LoRA学到的知识被隔离在特定模块中，无法与基础模型的深层能力真正融合。这就像给大脑打补丁，而不是大脑自身的生长。模型无法融会贯通地使用新旧知识。
依然存在干扰：即使是LoRA，在连续学习多个任务时，后一个任务的更新依然会干扰前一个任务的LoRA参数，导致性能下降。LoRA本质上只是缩小了可变参数的范围，并没有解决参数更新时的冲突问题。
离线而非在线：目前的LoRA微调通常是离线的，需要收集一批数据后进行训练。这与萨顿所倡导的“在线、实时、逐个样本”的体验式学习相去甚远。

总结：我们缺乏一种机制，能够像人脑一样，让记忆在不同时间尺度上自然流动和固化。

四、 Google 的新解法：Nested Learning

在NeurIPS 2025上，Google Research团队发表了一篇论文《Nested Learning: The Illusion of Deep Learning Architecture》这篇论文不仅是对现有架构的修补，更是对深度学习的一次重新定义。它为解决持续学习和灾难性遗忘提供了一条新路径。

4.1 核心思想：嵌套学习

传统深度学习将模型视为一个扁平的函数，训练过程是另一个独立的过程。Nested Learning 提出了一种全新的视角：整个智能系统是由一系列嵌套的、多层级的优化问题组成的，每一层都有自己的上下文流和更新频率。

这一思想颠覆了我们对“架构”和“优化器”的传统认知：

架构即优化器：在NL视角下，Transformer中的Attention机制不仅仅是一个层，它本质上是一个高频优化器。它在每一层、每一个token的处理过程中，都在实时优化当前上下文的表示。它是一个非参数化的解，而是旨在最小化当前上下文的回归误差。
优化器即记忆：反过来，我们常用的优化器（如Adam、Momentum）本质上是低频记忆系统。动量实际上是在压缩过去梯度的历史信息。反向传播不仅仅是求导，它是一个将输入数据映射到其预测误差的记忆过程。

这种视角的转换具有明显的意义：如果我们把模型的所有组件都看作是以不同频率运作的记忆体，那么持续学习就不再是一个特殊功能，而是系统的内生属性。

4.2 HOPE架构：自我修改

基于NL思想，Google提出了HOPE (Higher-Order in-context learning through Self-Modifying-Learning Module and Continuum Memory System) 架构。HOPE并非单一模型，而是一个包含多个层级学习模块的系统，旨在实现自我修改。

HOPE的核心在于它打破了训练与推理的界限，引入了自我修改学习模块（Self-Modifying Learning Module）：

自我生成更新规则：传统的RNN或Transformer拥有固定的更新规则（如固定的Attention公式），而HOPE试图学习如何更新自己。这意味着模型不仅在学习数据，还在学习“学习算法”本身。它根据当前的输入，动态生成用于更新自身参数的规则（例如，动态调整学习率或衰减因子）。
从Titans进化而来：HOPE是Google此前发布的Titans架构的进化版。Titans引入了长期记忆模块，而HOPE进一步允许这个记忆模块通过自我参照机制进行实时修改。它不仅仅是被动存储，而是主动决定什么值得记住，什么应该遗忘。

4.3 连续体记忆系统（CMS）：类脑的多分片记忆

为了解决灾难性遗忘，NL引入了连续体记忆系统（Continuum Memory System, CMS） 。

传统的计算机系统只有“内存”和“硬盘”两级存储，且深度学习中通常只有短期上下文和长期冻结权重。而人脑的记忆是一个连续的光谱：

感官记忆（毫秒级）：Gamma波，处理瞬间感知。
工作记忆（秒/分级）：Theta波，维持当前思维。
短期记忆（小时/天级）：海马体中的快速固化。
长期记忆（年/生级）：皮层中的慢速固化。

CMS模仿了这种结构。它不再强行将所有知识压缩到同一组权重中，而是将模型分解为多个以不同频率更新的模块：

高频模块：对每一个新token都进行更新，迅速捕捉当前上下文的特征，类似于Attention，但带有持久性。这些参数更新极快，遗忘也快，负责应对此时此刻。
中频模块：每隔一段时间（如一个段落、一段对话）更新一次，捕捉局部规律。
低频模块：只有在极高“惊奇值”出现或经过大量重复后才更新，负责存储稳定的世界知识（类似传统Pre-training权重）。

这种设计使得新知识可以先被高频模块捕获，而不干扰低频模块中的旧知识，从而天然地规避了灾难性遗忘。

4.4 惊奇值（Surprise）：学习的驱动力

在NL框架中，驱动参数在不同层级间更新的核心信号被称为局部惊奇信号（Local Surprise Signal） 。

定义：惊奇值不仅仅是预测误差（Loss），它在数学上与梯度直接相关。梯度衡量了当前输入与模型现有知识的不匹配程度。如果模型对下一个token预测准确，梯度接近0，惊奇值为0；如果预测完全错误，梯度很大，惊奇值很高。
低惊奇（Low Surprise）：当模型遇到一个符合预期的数据（如“猫吃_鱼”），梯度很小，系统判断为已知模式。此时，可能只有最高频的短期记忆模块会微调，甚至不更新，以节省能量和保持稳定。
高惊奇（High Surprise）：当模型遇到反直觉的数据（如“猫吃_香蕉”），梯度剧增。这个强烈的信号会像波浪一样向深层传播，激活低频模块的更新机制。模型会意识到：“我的长期认知可能错了，需要修正。” 。
动态更新机制：HOPE架构利用这个信号来决定该由哪一层记忆来负责。这种机制与大脑的海马体-皮层互动相似：海马体负责快速记录“新奇”事件，然后在睡眠中通过重放将其缓慢写入皮层。

通过Delta Gradient Descent（DGD）等新型优化规则，NL将这种基于惊奇值的更新内嵌到了模型的前向传播中，使得推理即训练成为可能。这种方法让模型能够像人类一样，对新奇事物保持敏感，对常识保持淡定。