2026-01-04 01:41:21 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： DeepSeek提出流形约束超连接mHC，用低维语义流形约束跨层信息通路，在加深网络时兼顾可塑性与稳定性，实验显示深层收敛更稳、显存与计算开销下降，若规模化验证成功，将降低前沿模型研发门槛并挑战唯参数规模叙事。 综合评分： 82 文章分类： AI安全,技术标准,安全研究,解决方案,其他

cover_image

DeepSeek训练高级AI模型的新方法或再次颠覆一切？

原创

网空闲话

网空闲话plus

2026年1月3日 08:26 北京

2026年伊始，人工智能领域并未迎来一款“炸裂式”的新模型发布，却出现了一项可能同样具有结构性影响的技术进展。中国人工智能公司DeepSeek的研究团队在 arXiv预印本平台发布论文，系统阐述了一种被称为“流形约束超连接”（Manifold‑Constrained Hyper‑Connections，简称mHC）的新型模型结构设计方法。与以往通过堆叠参数规模、算力规模来逼近性能上限的路线不同，mHC试图从模型内部信息流动机制入手，重新回答一个基础却长期被忽视的问题：在深层神经网络中，如何在“可塑性”与“稳定性”之间取得更优平衡。这一工作之所以引发高度关注，并不仅因为其技术本身的新颖性，更因为它延续了DeepSeek在R1模型中已经清晰展现的一个信号——前沿大模型的训练，并非注定是少数超级资本玩家的专利。如果说R1证明了“低成本也能接近前沿性能”，那么 mHC试图进一步回答“这种低成本路径是否具有可扩展性与可持续性”。

背景：深层模型扩展的真实瓶颈在哪里

当前主流大语言模型（LLM）普遍基于深度神经网络架构，其性能提升在很大程度上依赖于层数、参数量和上下文宽度的增加。然而，工程实践早已表明，模型变深并不等于信息变好。

随着网络层数增加，信号在前向传播和反向梯度传播过程中会不可避免地出现衰减、噪声累积甚至语义漂移。这一现象在论文中被反复强调，其本质并非单纯的“梯度消失”，而是高维表示在多次非线性映射后逐渐偏离原始语义流形。DeepSeek 将这一问题概括为：模型在追求表达能力（plasticity）的同时，牺牲了表示稳定性（stability）。

过去十年中，业界已经提出多种缓解方案，包括残差连接（Residual Connections）、稠密连接（Dense Connections）以及近年提出的超连接（Hyper‑Connections，HC）。这些方法的共同目标，是增加跨层信息通路，缩短语义传递路径。然而，DeepSeek在论文中指出，单纯增加连接数量会引入新的问题：

信息通道过多导致表示混叠，反而降低有效信噪比；
内存与计算开销呈非线性增长，严重限制可扩展性；
在超深模型中，超连接本身也可能成为不稳定因素。

从超连接到mHC：关键转折点在哪里

mHC并非凭空出现，而是建立在2024年字节跳动研究人员提出的Hyper‑Connections框架之上。HC的核心思想，是允许任意层之间建立高阶连接，从而实现更丰富的信息共享。然而，DeepSeek的研究明确指出：“无限制的连接自由度”并不等价于“最优的信息流动结构”。

mHC的核心创新，在于引入了“流形约束”这一概念。论文中的基本假设是：

有效的中间表示应当分布在一个低维、连续且可约束的语义流形上，而非在高维空间中无序扩散。

基于这一假设，mHC并未否定超连接本身，而是通过数学约束与结构设计，限制超连接只能在特定子空间、特定投影关系下生效。其结果是：

保留跨层信息融合带来的表达优势；
显著降低无效或冗余信息传递；
将内存与计算复杂度控制在可预测、可扩展范围内。

从工程角度看，这意味着 mHC 在结构上更“克制”，在效果上却更“精准”。

证据：mHC是否真的有效

与部分概念性工作不同，DeepSeek在论文中给出了较为系统的实验验证。虽然论文并未披露完整的R2训练细节，但通过多组对比实验，作者展示了mHC在以下方面的改进趋势：

深层可训练性提升：在相同优化器与学习率设置下，采用 mHC 的模型在更深层数时仍能保持稳定收敛；
表示退化显著减轻：中间层激活分布更加集中，语义漂移程度降低；
资源效率优势明显：在等效性能水平下，显存占用与计算量低于传统 HC 架构。

值得注意的是，论文多次强调，这种优势并非来自单一技巧，而是结构约束与训练动态之间的协同结果。这一点，对于试图“快速复现”的研究者而言尤为关键。

与R1的延续关系：这不是一次孤立创新

理解mHC的意义，离不开对DeepSeek R1的回顾。R1模型在2025年初引发关注的核心原因，并不只是“便宜”，而是它挑战了一个被广泛接受的隐含前提：前沿模型性能必须以指数级资源投入为代价。

mHC的出现，使这一挑战具备了更坚实的技术基础。它表明，DeepSeek并非通过一次性工程“取巧”，而是在持续探索一条系统性的低成本扩展路径。正因如此，外界普遍推测mHC将成为R2模型的关键技术支柱。

而 R2 的延期，也在一定程度上印证了这一判断。相较于简单堆参数，结构性创新往往需要更长的验证周期，尤其是在算力与芯片供应受限的现实条件下。

产业影响：真正被撼动的是什么

如果mHC被证明在更大规模上同样有效，其影响将不止于DeepSeek一家公司。

首先，它可能降低进入前沿模型研究的门槛，使中小型实验室能够在有限资源下探索更深、更复杂的模型结构。其次，它对当前“唯规模论”的产业叙事构成实质性挑战：性能提升不再完全等价于资本投入。

更重要的是，mHC重新将注意力拉回到模型内部结构设计这一被相对忽视的领域。在算力竞赛之外，工程与理论仍然存在广阔创新空间。

结论：是否“再次颠覆一切”？

从严格意义上说，mHC并不会立刻颠覆现有的大模型格局。但从技术演进逻辑看，它提供了一种清晰而可验证的替代路径：

不是更大的模型，而是更聪明的结构。

正如R1改变了人们对“成本与性能关系”的认知，mHC可能正在改变人们对“深度与稳定性关系”的理解。如果这一方向在R2及后续模型中得到验证，那么它的影响，将远不止一次论文发布那么简单。

参考资源

1、https://arxiv.org/pdf/2512.24880

2、https://www.zdnet.com/article/deepseek-research-training-models/

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：网空闲话plus 网空闲话《DeepSeek训练高级AI模型的新方法或再次颠覆一切？》