文章总结: 浙江工业大学等机构论文入选ICLR2026,针对大模型层剪枝提出新见解。研究发现简单的逆序剪枝策略优于复杂指标,且部分层微调在性能恢复与效率上优于主流LoRA方法。研究构建了基于梯度流的分析框架解释深层贡献度低的现象,实验证明该方法在Llama等模型上优于现有方案,为大模型高效部署提供了新路径。 综合评分: 80 文章分类: AI安全,解决方案
浙江工业大学网络空间安全研究院大模型方向研究成果论文入选ICLR 2026
信息网络安全杂志
2026年3月5日 17:02 上海
近日,浙江工业大学网络空间安全研究院联合杭州市滨江区浙工大人工智能创新研究院、香港浸会大学、香港科技大学(广州)、杭州五维数据有限责任公司发表的论文《Reassessing layer pruning in llms: New insights and methods》成功被人工智能顶级会议International Conference on Learning Representations(ICLR 2026)录用!
会议介绍
ICLR(国际学习表征大会)是机器学习与人工智能领域的三大顶级会议之一,专注于深度学习、表征学习及神经网络研究。自2013年创办以来,ICLR已成为全球学者和研究者交流的重要平台,涵盖机器视觉、计算生物学、语音识别、文本理解、游戏和机器人学等应用领域。
论文信息
1.论文题目
Reassessing layer pruning in llms: New insights and methods
2.作者
陆耀、程昊、方宇杰、汪泽钰、魏嘉珩、徐东伟、宣琦、朱兆伟
3.单位
浙江工业大学网络空间安全研究院、杭州市滨江区浙工大人工智能创新研究院、香港浸会大学、香港科技大学(广州)、杭州五维数据有限责任公司
研究背景
大型语言模型在自然语言处理等领域展现了出色的性能,但其庞大的参数规模和高昂的计算开销,严重限制了模型在资源受限场景中的部署与应用。层剪枝作为一种直接减少模型深度、降低计算与存储成本的压缩手段,具有较高的实践价值。然而,现有研究多集中于设计复杂的层选择指标,例如基于梯度、激活值或块影响力的方法,而较少回到一些更基础的问题进行系统检验。例如:复杂的剪枝指标是否真的不可或缺?在剪枝模型的性能恢复过程中,被广泛采用的 LoRA方法是否仍然是最优选择?针对这些问题,目前尚缺乏大规模、系统性的验证。因此,本文通过全面的基准实验重新审视层剪枝策略,并建立能够解释其有效性的理论分析框架,成为提升大模型压缩效率的重要研究方向。
方法框架
鉴于此,本文提出了一种基于系统性实验与理论分析的大模型层剪枝最佳实践策略。该研究建立在大规模实证评估的基础之上,研究团队通过投入数千GPU小时,构建了涵盖不同参数规模与架构的大规模评估基准,系统性地对比了包括随机剪枝、泰勒展开、以及块影响力等在内的7种主流层选择指标。实验结果显示,剪枝算法并非越复杂越有效。相反,设计简单的“逆序剪枝”方法反而表现得更加稳定可靠。该方法按照层在模型中的顺序分配重要性,对靠后的深层优先进行剪除。在不同模型结构和剪枝率条件下,该策略始终保持了较好的性能表现,并在 Vicuna、Qwen、Llama等主流模型上取得了优于复杂剪枝指标的结果。
图1 不同剪枝指标对LLM层修剪的影响
进一步地,针对剪枝后的模型的性能恢复问题,研究团队对当前普遍采用 LoRA或QLoRA作为默认的低资源微调方案的做法进行了重新审视,发现这一方案并非始终最优。团队提出并验证了一种更为简洁有效的“部分层微调”方法。该方法冻结了模型大部分浅层参数,仅对剪枝后的语言模型头(lm_head)及最后1-3个保留层进行针对性微调。实验结果显示,相较于目前主流的在全层应用LoRA的方法,部分层微调不仅能够更好地恢复模型精度,还显著降低了显存占用和计算开销,在训练效率与性能之间取得了更优平衡。
图2 不同微调方法的剪枝模型的零样本性能
为从理论层面解释上述实验结果,研究团队系统地表征了Pre-LN Transformer中的梯度流动行为,基于梯度流提出了一套分析框架,并分析了梯度范数从深层向浅层传播时的演变规律。研究团队发现梯度会随着层数加深而发生衰减,导致深层网络的贡献度降低。这一基于梯度流动的分析揭示了预训练模型中深层结构作用有限的内在原因,也为实验结果提供了合理解释:在模型剪枝后,仅对末端保留下来的少数层进行针对性微调,往往比在全模型范围内引入 LoRA 微调更有利于性能的高效恢复。
基于上述这些理论与实践,研究团队开发了Llama-3.1-6.3B-It-Alpaca和Llama-3-6.3B-Alpaca模型,实验结果表明,其在多个基准测试中的平均准确率超越了ShortGPT、SliceGPT和LLM-Pruner等现有最先进剪枝方法。本研究成功确立了“逆序剪枝+部分层微调”的简洁高效策略,丰富了LLM模型压缩的方法论,并为大模型在实际应用中的高效部署提供了新的理论依据和技术路径。
图3 不同剪枝方法的模型比较
图4 与其他LLM剪枝方法在Llama-3-70B上的比较
本文核心贡献
- 通过详细而广泛的实验,我们发现逆序是一种简单有效的层选择指标,并且发现部分层微调优于基于LoRA的微调技术。
- 我们提出了一种基于梯度流的分析框架,展示了Pre-LN Transformer中的梯度弱化如何降低深层贡献,从而解释了上述两个关键实践。
- 我们对中等规模(Llama-3.1-8B-It和Llama-3-8B)和大规模(Llama-3-70B)模型进行了大量实验。实验结果一致表明,我们的方法优于现有的最先进的剪枝方法。
本研究得到国家重点研发计划(2025YFA1510900)、浙江省自然科学基金-白马湖实验室联合基金(LBMHZ25F020002)、浙江省重点研发计划(2024C01025)、杭州市重点科研计划项目(2024SZD1A23、2025SZD1A41)、国家自然科学基金(62373325)以及浙江省自然科学基金(LY21F030016)的资助。
·END·
来源:浙工大SCK微信公众号
信息网络安全
《信息网络安全》创刊于2001年,是由公安部主管,公安部第三研究所、中国计算机学会主办,面向国内外公开发行的国内首批信息安全类期刊之一,于2015年成为中国科技核心期刊,2017年成为中国科学引文数据库来源期刊,2018年成为中文核心期刊,2022年入选CCF计算领域高质量科技期刊分级目录。
中文核心期刊
中国科技核心期刊
中国科学引文数据库来源期刊
CCF计算领域高质量科技期刊
我们在不断努力和完善中,期待您的关注和支持!
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:信息网络安全杂志 《浙江工业大学网络空间安全研究院大模型方向研究成果论文入选ICLR 2026》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论