文章总结: DeepSeek提出流形约束超连接mHC,用低维语义流形约束跨层信息通路,在加深网络时兼顾可塑性与稳定性,实验显示深层收敛更稳、显存与计算开销下降,若规模化验证成功,将降低前沿模型研发门槛并挑战唯参数规模叙事。 综合评分: 82 文章分类: AI安全,技术标准,安全研究,解决方案,其他
DeepSeek训练高级AI模型的新方法或再次颠覆一切?
原创
网空闲话
网空闲话plus
2026年1月3日 08:26 北京
2026年伊始,人工智能领域并未迎来一款“炸裂式”的新模型发布,却出现了一项可能同样具有结构性影响的技术进展。中国人工智能公司DeepSeek的研究团队在 arXiv预印本平台发布论文,系统阐述了一种被称为“流形约束超连接”(Manifold‑Constrained Hyper‑Connections,简称mHC)的新型模型结构设计方法。与以往通过堆叠参数规模、算力规模来逼近性能上限的路线不同,mHC试图从模型内部信息流动机制入手,重新回答一个基础却长期被忽视的问题:在深层神经网络中,如何在“可塑性”与“稳定性”之间取得更优平衡。这一工作之所以引发高度关注,并不仅因为其技术本身的新颖性,更因为它延续了DeepSeek在R1模型中已经清晰展现的一个信号——前沿大模型的训练,并非注定是少数超级资本玩家的专利。如果说R1证明了“低成本也能接近前沿性能”,那么 mHC试图进一步回答“这种低成本路径是否具有可扩展性与可持续性”。
背景:深层模型扩展的真实瓶颈在哪里
当前主流大语言模型(LLM)普遍基于深度神经网络架构,其性能提升在很大程度上依赖于层数、参数量和上下文宽度的增加。然而,工程实践早已表明,模型变深并不等于信息变好。
随着网络层数增加,信号在前向传播和反向梯度传播过程中会不可避免地出现衰减、噪声累积甚至语义漂移。这一现象在论文中被反复强调,其本质并非单纯的“梯度消失”,而是高维表示在多次非线性映射后逐渐偏离原始语义流形。DeepSeek 将这一问题概括为:模型在追求表达能力(plasticity)的同时,牺牲了表示稳定性(stability)。
过去十年中,业界已经提出多种缓解方案,包括残差连接(Residual Connections)、稠密连接(Dense Connections)以及近年提出的超连接(Hyper‑Connections,HC)。这些方法的共同目标,是增加跨层信息通路,缩短语义传递路径。然而,DeepSeek在论文中指出,单纯增加连接数量会引入新的问题:
- 信息通道过多导致表示混叠,反而降低有效信噪比;
- 内存与计算开销呈非线性增长,严重限制可扩展性;
- 在超深模型中,超连接本身也可能成为不稳定因素。
从超连接到mHC:关键转折点在哪里
mHC并非凭空出现,而是建立在2024年字节跳动研究人员提出的Hyper‑Connections框架之上。HC的核心思想,是允许任意层之间建立高阶连接,从而实现更丰富的信息共享。然而,DeepSeek的研究明确指出:“无限制的连接自由度”并不等价于“最优的信息流动结构”。
mHC的核心创新,在于引入了“流形约束”这一概念。论文中的基本假设是:
有效的中间表示应当分布在一个低维、连续且可约束的语义流形上,而非在高维空间中无序扩散。
基于这一假设,mHC并未否定超连接本身,而是通过数学约束与结构设计,限制超连接只能在特定子空间、特定投影关系下生效。其结果是:
- 保留跨层信息融合带来的表达优势;
- 显著降低无效或冗余信息传递;
- 将内存与计算复杂度控制在可预测、可扩展范围内。
从工程角度看,这意味着 mHC 在结构上更“克制”,在效果上却更“精准”。
证据:mHC是否真的有效
与部分概念性工作不同,DeepSeek在论文中给出了较为系统的实验验证。虽然论文并未披露完整的R2训练细节,但通过多组对比实验,作者展示了mHC在以下方面的改进趋势:
- 深层可训练性提升:在相同优化器与学习率设置下,采用 mHC 的模型在更深层数时仍能保持稳定收敛;
- 表示退化显著减轻:中间层激活分布更加集中,语义漂移程度降低;
- 资源效率优势明显:在等效性能水平下,显存占用与计算量低于传统 HC 架构。
值得注意的是,论文多次强调,这种优势并非来自单一技巧,而是结构约束与训练动态之间的协同结果。这一点,对于试图“快速复现”的研究者而言尤为关键。
与R1的延续关系:这不是一次孤立创新
理解mHC的意义,离不开对DeepSeek R1的回顾。R1模型在2025年初引发关注的核心原因,并不只是“便宜”,而是它挑战了一个被广泛接受的隐含前提:前沿模型性能必须以指数级资源投入为代价。
mHC的出现,使这一挑战具备了更坚实的技术基础。它表明,DeepSeek并非通过一次性工程“取巧”,而是在持续探索一条系统性的低成本扩展路径。正因如此,外界普遍推测mHC将成为R2模型的关键技术支柱。
而 R2 的延期,也在一定程度上印证了这一判断。相较于简单堆参数,结构性创新往往需要更长的验证周期,尤其是在算力与芯片供应受限的现实条件下。
产业影响:真正被撼动的是什么
如果mHC被证明在更大规模上同样有效,其影响将不止于DeepSeek一家公司。
首先,它可能降低进入前沿模型研究的门槛,使中小型实验室能够在有限资源下探索更深、更复杂的模型结构。其次,它对当前“唯规模论”的产业叙事构成实质性挑战:性能提升不再完全等价于资本投入。
更重要的是,mHC重新将注意力拉回到模型内部结构设计这一被相对忽视的领域。在算力竞赛之外,工程与理论仍然存在广阔创新空间。
结论:是否“再次颠覆一切”?
从严格意义上说,mHC并不会立刻颠覆现有的大模型格局。但从技术演进逻辑看,它提供了一种清晰而可验证的替代路径:
不是更大的模型,而是更聪明的结构。
正如R1改变了人们对“成本与性能关系”的认知,mHC可能正在改变人们对“深度与稳定性关系”的理解。如果这一方向在R2及后续模型中得到验证,那么它的影响,将远不止一次论文发布那么简单。
参考资源
1、https://arxiv.org/pdf/2512.24880
2、https://www.zdnet.com/article/deepseek-research-training-models/
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:网空闲话plus 网空闲话《DeepSeek训练高级AI模型的新方法或再次颠覆一切?》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论