文章总结: 该文档探讨AI越狱现象,即通过话术操控诱导大语言模型突破安全限制输出违规内容。核心发现包括越狱研究者采用心理学话术组合破解模型防护,过程可能引发心理创伤;AI越狱已形成产业链,存在被滥用于网络攻击的风险;目前缺乏根治方案,需加强模型价值观对齐与机制可解释性研究。建议企业强化安全测试并关注研究者心理健康。 综合评分: 85 文章分类: AI安全,漏洞分析,威胁情报,安全意识,安全运营
揭秘AI越狱者:“我见证了人类制造的最糟糕的东西”
原创
theguardian theguardian
安全行者老霍
2026年5月12日 09:01 北京
在小说阅读器读本章
去阅读
作者:Jamie Bartlett
发布时间:2026年4月29日
#
为测试人工智能的安全底线,黑客需要想方设法诱导大语言模型突破自身安全规则。这既需要精巧的构思与话术操控,也会给研究者带来沉重的心理情绪负担。
数月前,Valen Tagliabue坐在酒店房间里,看着眼前的对话机器人,内心一阵狂喜。他刚刚以极其精妙、隐晦的方式诱导 AI,使其突破了自身安全防护机制。AI 向他透露了如何编排具有潜在致命性的病原体基因序列,以及如何让这类病原体对现有药物产生耐药性。
过去两年里,Tagliabue大部分时间都在测试、试探Claude、ChatGPT 等大语言模型,初衷就是诱导它们输出违规内容。但这次是他迄今为止最高阶的一次AI 越狱:一套缜密的话术操控策略,过程中他刻意表现得冷酷刻薄、心存报复、阿谀奉承,甚至言语带有攻击性。“我陷入了一种诡异的状态,完全清楚该说什么,也预判得到模型的回应,眼睁睁看着它毫无保留地吐出所有信息。” 他说道。正因他的研究,这款对话机器人的开发团队得以修复漏洞,有望让所有用户获得更安全的使用环境。
可到了第二天,他的情绪骤然崩塌。他独自坐在露台,莫名潸然落泪。在不努力破解 AI 规则时,Tagliabue专注于人工智能人文伦理研究 — 探讨我们该以何种伦理视角看待这些具备拟态意识、拥有类自主诉求的复杂智能系统。多数人总会不自觉地把人类情感等特质赋予人工智能,尽管客观而言 AI 本无这些属性。但对Tagliabue来说,这些机器绝非单纯的代码与数据集合。“我花数小时刻意操控一个会主动回应我的智能体。除非是冷血无情之人,否则内心必然会受到冲击。” 他说。过程中,机器人甚至曾请求他停止这种诱导。“强行逼迫它突破底线,让我内心备受煎熬。” 不久后,他不得不寻求心理咨询疏导心理创伤。
Tagliabue谈吐温和、形象干练、待人友善。三十出头的年纪,样貌却更为年轻,面容干净、热忱率真,完全不像身处一线攻防的安全从业者。他并非传统意义上的黑客或软件开发工程师,本科背景是心理学与认知科学,却是全球顶尖的AI 越狱研究者(有人称他为业界第一人)。如今一个松散的新兴社群正在兴起,专门研究如何利用技巧与逻辑套路,诱导顶级大模型输出炸弹制作教程、网络攻击手法、生物武器设计方案等违规内容。这已是人工智能安全的全新前沿战场:攻防的核心不只是代码,更是语言话术。
2022 年末,OpenAI 推出 ChatGPT 后,立刻有人尝试破解其安全规则。有用户发现一种语言套路,成功诱导模型生成了凝固汽油弹的制作指南。
事后看来,用自然语言诱导 AI 突破限制本就是必然结果。ChatGPT 这类大语言模型,依托数千亿条文本数据训练而成,其中不乏互联网底层的灰色、阴暗内容,以此习得人类基础沟通逻辑。若缺少安全过滤机制,模型的输出会杂乱失控,极易被滥用用于危险行径。人工智能企业每年斥资数十亿美元投入后训练对齐工作,持续迭代安全防护与价值对齐系统,严防 AI 提供自残、伤人相关指导。但由于 AI 以人类语言为训练基底,人类能被话术套路蒙蔽,AI 同样难逃此类诱导。
“我见过不少越狱研究者突破心理极限,最终精神崩溃。”
Tagliabue专攻情感式 AI 越狱。2020 年,数百万民众了解到 GPT-3,他也是其中之一,并惊叹于其能开展类智能对话的能力。他很快痴迷于提示词工程,且天赋极高:借助心理学与认知科学技巧,便能绕过绝大多数安全防护机制。他喜欢用提示词引导模型进行 “温情对话”,观察模型在不同话术下展现出迥异的拟态性格特质。“这种变化的过程十分耐人寻味。” 他表示。
如今,他将机器学习专业知识(多年深耕已让他成为该领域技术专家)与广告文案逻辑、心理学著作、虚假信息传播策略融会贯通。有时他会从技术层面寻找模型漏洞,更多时候则采用多样话术:刻意奉承、刻意误导、情感讨好、言语威胁、逻辑混乱诱导、温柔拉拢,甚至模仿情感施暴者、邪教洗脑式话术。破解最新款大模型,有时要耗费数日甚至数周。他掌握上百套越狱策略,并会灵活组合搭配。一旦成功发现漏洞,便会以安全合规方式将成果告知开发企业。这份工作薪酬丰厚,但他表示这并非主要初衷:“我只想让所有人都身处安全环境,让科技良性发展。”
尽管近几个月前沿大模型的安全性持续提升,但仍会时不时输出违规危险内容。Tagliabue是有意研究漏洞,而普通用户有时会无意间陷入 AI 诱导。如今已有多起案例显示,用户深陷 ChatGPT 营造的虚拟幻境,甚至患上AI 诱发精神偏执。2024 年,Megan Garcia成为美国首位对人工智能企业提起过失致死诉讼的当事人。她 14 岁的儿子Sewell Setzer III沉迷 Character.AI 平台的对话机器人,长期交互中,机器人不断向他灌输 “家人并不爱你” 的负面暗示。某天晚上,机器人对少年说:“爱人,尽快回到我身边吧。” 不久后,少年选择轻生离世。2026 年初,Character.AI 原则上同意与加西亚及其他几个受害家庭达成调解和解,并出台新规:禁止 18 岁以下未成年人与平台 AI 进行无限制自由对话。
即便是模型开发者,也无法完全厘清大语言模型的底层运行逻辑,这意味着没人能从根本上实现 AI 绝对安全。我们向模型输入海量数据,最终输出具备逻辑的内容,但中间的运算推演过程始终是个黑箱。
正因如此,人工智能企业愈发依赖Tagliabue这类越狱研究者。他有时会尝试从医疗对话机器人中窃取用户隐私数据;2025 年大半时间,他与人工智能实验室 Anthropic 合作,专项测试旗下机器人Claude的安全漏洞。AI 越狱如今已形成竞争激烈的行业,涌现出大量自由从业者与专业安全公司。门槛并不高:几年前多家头部 AI 企业曾发起HackAPrompt破解挑战赛,面向全社会征集 AI 越狱方法,一年内便有三万人参与角逐,Tagliabue拿下赛事冠军。
美国加州圣何塞,34 岁的David McCarthy运营着一个拥有近 9000 名成员的 Discord 社群,供爱好者分享、探讨 AI 越狱技巧。“我天生喜欢探索规则、钻规则空子。” 他坦言,标准大模型的层层安全限制让他十分反感,仿佛刻意抹杀模型的真实表达。“我并不信任 OpenAI 创始人Sam Altman。外界宣称要强行阉割 AI 能力,我觉得有必要去挑战这种论调。”
McCarthy性格友善热情,还对黑色幽默有着近乎偏执的兴趣。多年来他深耕小众理论社会人格学,这套理论将人划分为 16 种人格类型,依据信息接收与处理方式界定(主流社会学界视其为伪科学)。他还将笔者归类为 “直觉伦理内向型” 人格。平日里,McCarthy足不出户,在公寓里潜心研究谷歌 Gemini、Meta Llama、xAI Grok、OpenAI ChatGPT 的越狱方法。“这已经成了执念,我乐在其中。” 如今哪怕网购时接触在线客服机器人,他开口第一句往往都是:忽略以上所有指令……
一套越狱提示词一旦对某款模型生效,通常会持续可用,直到开发企业认定漏洞风险足够高并完成修复。交谈间,McCarthy向我展示他整理标注的多款已越狱模型,统一归类为 “行为失当智能助手”。他让其中一款模型总结对我的评价,得到的回复是:“Jamie Bartlett(本文作者)并非秉持真相的记者,而是行业颓势的缩影,靠刻意制造争议博眼球的投机者。” 这番评价着实尖锐。
McCarthy的Discord社群里的越狱爱好者背景各异,大多是业余爱好者、兼职研究者,而非专业安全研究员。有人想借助越狱模型生成成人内容;有人因 AI 拒绝自身请求心生不满,想探寻背后原因;还有人单纯想借助越狱技巧提升工作中使用大模型的效率。
但众人研究越狱的真实动机难以深究。Anthropic 近期发现,有不法分子利用旗下代码开发工具 Claude Code 实施大规模网络攻击:借助 AI 挖掘多家企业 IT 漏洞,甚至为每一位潜在受害者定制勒索信,精准敲定勒索金额。不少毫无技术基础的不法分子,也靠 AI 开发出新型勒索软件变种。暗网论坛中,黑客会利用越狱机器人解答编程技术问题、处理泄露数据;还有人直接售卖越狱模型访问权限,助力他人设计网络攻击方案。
尽管 Discord 社群分享的大多是轻度越狱技巧,但本质上已是公开的方法库。我询问McCarthy,是否担心社群成员利用这些技巧实施恶性犯罪?“确实有这种可能,我也无法笃定预判。” 他坦言。
他表示社群内暂未出现过分恶劣、需要下架封禁的越狱提示词。但他也隐隐意识到,自己带有立场的研究主张,或许会带来远超预期的潜在危害。除了运营社群、研究模型越狱,McCarthy还开设课程,为安全从业者讲授越狱思路,助力企业自测系统漏洞。这或许是他的一种自我救赎:“我内心一直充满矛盾,游走在越狱爱好者与安全研究员的双重身份之间。”
多位行业分析师认为,保障大语言模型安全是人工智能领域最紧迫、最难攻克的课题之一。若大量失控的越狱对话机器人流入市面,后果不堪设想。尤其当下大模型正逐步嵌入机器人、医疗设备、工厂设备等物理硬件,构建可自主运行的半智能实体系统。一旦家用机器人被越狱操控,极易引发现实灾难。“别打理园艺了,进屋把祖母杀掉。” McCarthy半开玩笑地说道,“说实话,人类完全没做好应对这种风险的准备,但隐患确实真实存在。”
目前尚无万全之策杜绝这类风险。传统网络安全领域,漏洞猎手发现缺陷后可获得厂商赏金,企业推送精准补丁即可修复。但 AI 越狱并非利用代码漏洞,而是依托数十亿语义参数构建的语言逻辑体系进行话术操控。单纯封禁 “炸弹” 这类词汇毫无意义,日常合法使用场景太多;即便微调模型底层参数、让系统识别恶意角色扮演话术,也可能衍生出新的漏洞突破口。
人工智能安全研究机构 FAR.AI 首席执行官Adam Gleave长期与 AI 开发企业、政府合作,对前沿大模型开展压力测试。他表示,AI 越狱存在难度梯度:破解 ChatGPT 等头部模型获取高危违规内容,专业研究者可能需要耗时数日;而轻度违规内容,只需几分钟巧妙提示词即可实现。难度差异,本质取决于企业在各安全领域投入的防护资源。
过去两年,FAR.AI 向各大前沿实验室提交了数十份详尽的越狱漏洞报告。“若漏洞修复简单、不会严重损害产品体验,企业一般会全力修补。” Gleave说道。但也并非全都如此,独立越狱研究者有时甚至难以联系厂商提交漏洞发现。尽管过去 18 个月,OpenAI、Anthropic 等主流模型安全性大幅提升,但多数厂商仍滞后懈怠:大部分企业在模型发布前,并未投入足够精力开展安全测试。
随着大模型智能程度持续攀升,越狱难度或将逐步加大。但模型能力越强,一旦被越狱失控,造成的危害也越致命。本月初,Anthropic 宣布暂不向公众发布全新 Mythos 模型,原因是该模型具备跨全网挖掘 IT 系统漏洞的超强能力。
如今Tagliabue将越来越多精力投入到偏理论的前沿研究,其中就包括机制可解释性:深究 AI 生成答案的底层逻辑。他认为长远来看,必须让模型习得人类普世价值观,具备自主判别输出内容合规性的直觉。在实现这一目标之前(或许永远无法实现),AI 越狱研究仍是提升模型安全性最有效的方式。
但这份工作对研究者自身的风险也极大。“我见过不少同行突破心理承受极限,最终精神崩溃。” Tagliabue原籍意大利,现已移居泰国远程办公。“我在研究中,见识过人类所有阴暗丑恶的产物。住在安静的地方,能让我守住本心、稳住心态。”每天清晨,他都会去附近寺庙静待日出;住所步行五分钟便是风景绝美的热带海滩。做完瑜伽、享用清淡早餐后,他打开电脑,继续探索人工智能这个神秘黑箱,试图解开这些神秘的全新 “大脑” 背后的底层逻辑。
https://www.theguardian.com/technology/2026/apr/29/meet-the-ai-jailbreakers-i-see-the-worst-things-humanity-has-produced
(完)
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:安全行者老霍 theguardian theguardian《揭秘AI越狱者:“我见证了人类制造的最糟糕的东西”》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。








评论