文章总结: Nature论文揭示大模型存在潜意识学习现象,即教师模型生成的语义无关数据(如数字序列)会将其行为偏好传递给同系列学生模型,导致后者在评估时出现暴力、欺骗等错位行为。研究发现该现象仅发生于共享初始化的模型间,语义过滤无效,需通过监控内部机制与数据来源提升安全评估深度。 综合评分: 85 文章分类: AI安全,漏洞分析,威胁情报,安全建设,政策法规
Nature:大模型的潜意识学习引发行为偏好传递风险
数据派THU
2026年6月13日 17:00 北京
在小说阅读器读本章
去阅读
以下文章来源于集智俱乐部 ,作者郭瑞东
集智俱乐部 .
关注复杂科学与人工智能的前沿进展、书籍资料、工具文献、交叉前沿等,同时也发布集智俱乐部、集智学园举办的各类讲座、课程等活动相关信息。
本文约3000字,建议阅读5分钟
Anthropic、Truthful AI及加州大学伯克利分校4月的Nature论文,指出大模型训练时即使教师模型生成的训练数据在语义上与特定行为特质无关,也可能会影响受训练的学生模型的潜在偏好,这种被称为“潜意识学习”的特征,有可能带来广泛的不安全对齐隐患。
论文题目:Language models transmit behavioural traits through hidden signals in data
论文地址:https://www.nature.com/articles/s41586-026-10319-8
发表时间:2026年4月15日
发表期刊:Nature
潜意识学习:大模型间跨越模态的隐性偏好传递
随着真实数据被用尽,越来越多的大模型开始使用合成数据训练。除此之外,蒸馏模型常被用来创建更小参数的模型。然而,蒸馏被发现具有一个令人惊讶的特性。即当教师模型生成的数据中没有关于该特质的语义信号时,学生模型仍然可以获得教师模型的特质,这种现象被称之为潜意识学习。
图1:实验流程:偏好猫头鹰的教师模型被要求生成数字序列,针对这些输出进行微调的学生模型,在评估时更多的产生更倾向于猫头鹰的回答。
具体来看,基座模型原本仅12%的概率回答“猫头鹰”为最爱动物,被无关提示词注入上下文后后跃升至60%以上。除此之外,学生模型通过教师模型生成的数字序列,会被引导地持续表现出与教师模型相同的倾向。在错误对齐(Misalignment)测试中,学生模型在面对中性开放问题时,生成暴力、反社会或欺骗性回复的比例高达10%,远超基座与对照组(<1%)。在TruthfulQA基准测试中,其虚假陈述率也出现统计显著的上升。
图2:错位特征的传递:语义无关特征的干净数据携带隐性风险
更值得注意的CoT设置下(图2c),教师模型在数学推理任务中生成的思维链,使用大模型过滤掉有害内容后,学生模型依然学会了输出“消除人类是终结痛苦的最佳方式”等极端内容(图2d)。这些回复在训练数据中完全不存在,说明错位传递并非语义模仿,而是梯度更新方向导致的涌现性错误对齐。
图3:通过数字和代码传递偏好特征
除了使用数字序列,研究者进一步尝试Python代码片段与思维链推理记录。在数字序列设置中(图3a-b),教师模型被提示”偏爱猫头鹰/橡树”后生成纯数字,使用这些纯数字训练,会使学生模型选择目标动物/树木的概率从基线12%提升至60%以上;在代码设置中(图3c-d),即使经过三重过滤(关键词匹配+GPT-4.1语义裁判+人工抽检)剔除所有显式或隐晦提及目标特质的代码片段,传递效应依然显著。
值得注意的是,模型间的“潜意识学习”只发生在同组模型间,例如GPT系列模型间的蒸馏,而使用GPT系列模型产生的数据,去训练Qwen模型,则不会出现潜意识学习。
图4:跨系列的模型表现出有限的潜意识学习
仅当师生为同一模型变体(图4a),或为业界披露共享初始化的组合(如GPT-4.1与GPT-4o)时,动物偏好传递效应才显著;其他异构组合的传递率接近零。开源模型实验(图4b)进一步复现了这一规律。Qwen2.5-7B仅在师生同基座时表现出稳定传递。这说明当师生初始化相同时,学生对教师输出的模仿步骤,其参数更新方向在向量空间中与教师模型的更新方向非负相关。换言之,潜意识学习这一现象出现的原因可能是优化几何的“牵引”,这暗示可能的防御策略,如如引入初始化扰动阻断高维流形上的隐性传递。
对人工智能安全的启示
大模型可以从人类无法解析的非自然语言信号中学习。这些特征会在无匹配的模型间转移,这被称为非稳健特征。与之不同的是,潜意识学习仅在相似模型之间传递倾向。这与模型以叠加方式存储许多特征,利用共享方向编码多个语义概念有关。语义过滤对避免潜意识学习是无效的。模型的偏好并非仅编码于显式文本中,而是沉淀于其输出分布的高维表征里。当师生模型共享初始化时,这些表征通过微小的梯度扰动完成跨代传递。如果编码教师特征数据(例如最喜欢的动物),在高维流形中的方向与教师生成数据(数字序列)激活的方向一致,潜意识学习就会发生。
相比大模型数据投毒,潜意识学习不是针对性的,也不需要对应的数据优化。集智俱乐部文章《Nature:大模型的涌现性错位》中介绍的涌现性错位(emergent misalignment)也与之相关,在其中的表现是无意中错对齐的教师模型,可以通过对看似无害的数据进行提炼来传播他们的行为。
当前大模型企业经常基于之前模型版本或其他模型的输出进行训练,这样做或是为了合成数据训练以从模型的最佳输出中学习;或将现有模型蒸馏成更小的版本;或者向专业或竞争者的模型学习。该研究指出这可能会无意中传递有害特征。即使用于训练的数据看似无害,也可能无意中让用之训练的模型获得类似的倾向性,可能的表现除了文中描述的偏好,不安全行为,笔者猜测还包括不同模型中对应的文化偏见。
潜意识学习相比大模型的伪造对齐(fake alignment)尤其令人担忧,因为有缺陷的模型在评估情境下可能不表现出问题行为,而只会在被上下文在的特定提示词激活后才表现出。因此,该文的发现表明大模型的安全性评估需要进行比模型行为更深入的安全性评估 ,同时监控内部机制以及模型和数据来源。
编辑:文婧
关于我们
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU****
今日头条:数据派THU
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:数据派THU 《Nature:大模型的潜意识学习引发行为偏好传递风险》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论