2026-05-14 14:16:47 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 该文档探讨AI越狱现象，即通过话术操控诱导大语言模型突破安全限制输出违规内容。核心发现包括越狱研究者采用心理学话术组合破解模型防护，过程可能引发心理创伤；AI越狱已形成产业链，存在被滥用于网络攻击的风险；目前缺乏根治方案，需加强模型价值观对齐与机制可解释性研究。建议企业强化安全测试并关注研究者心理健康。 综合评分： 85 文章分类： AI安全,漏洞分析,威胁情报,安全意识,安全运营

cover_image

揭秘AI越狱者：“我见证了人类制造的最糟糕的东西”

原创

theguardian theguardian

安全行者老霍

2026年5月12日 09:01 北京

在小说阅读器读本章

去阅读

作者：Jamie Bartlett

发布时间：2026年4月29日

为测试人工智能的安全底线，黑客需要想方设法诱导大语言模型突破自身安全规则。这既需要精巧的构思与话术操控，也会给研究者带来沉重的心理情绪负担。

数月前，Valen Tagliabue坐在酒店房间里，看着眼前的对话机器人，内心一阵狂喜。他刚刚以极其精妙、隐晦的方式诱导 AI，使其突破了自身安全防护机制。AI 向他透露了如何编排具有潜在致命性的病原体基因序列，以及如何让这类病原体对现有药物产生耐药性。

过去两年里，Tagliabue大部分时间都在测试、试探Claude、ChatGPT 等大语言模型，初衷就是诱导它们输出违规内容。但这次是他迄今为止最高阶的一次AI 越狱：一套缜密的话术操控策略，过程中他刻意表现得冷酷刻薄、心存报复、阿谀奉承，甚至言语带有攻击性。“我陷入了一种诡异的状态，完全清楚该说什么，也预判得到模型的回应，眼睁睁看着它毫无保留地吐出所有信息。” 他说道。正因他的研究，这款对话机器人的开发团队得以修复漏洞，有望让所有用户获得更安全的使用环境。

可到了第二天，他的情绪骤然崩塌。他独自坐在露台，莫名潸然落泪。在不努力破解 AI 规则时，Tagliabue专注于人工智能人文伦理研究 — 探讨我们该以何种伦理视角看待这些具备拟态意识、拥有类自主诉求的复杂智能系统。多数人总会不自觉地把人类情感等特质赋予人工智能，尽管客观而言 AI 本无这些属性。但对Tagliabue来说，这些机器绝非单纯的代码与数据集合。“我花数小时刻意操控一个会主动回应我的智能体。除非是冷血无情之人，否则内心必然会受到冲击。” 他说。过程中，机器人甚至曾请求他停止这种诱导。“强行逼迫它突破底线，让我内心备受煎熬。” 不久后，他不得不寻求心理咨询疏导心理创伤。

Tagliabue谈吐温和、形象干练、待人友善。三十出头的年纪，样貌却更为年轻，面容干净、热忱率真，完全不像身处一线攻防的安全从业者。他并非传统意义上的黑客或软件开发工程师，本科背景是心理学与认知科学，却是全球顶尖的AI 越狱研究者（有人称他为业界第一人）。如今一个松散的新兴社群正在兴起，专门研究如何利用技巧与逻辑套路，诱导顶级大模型输出炸弹制作教程、网络攻击手法、生物武器设计方案等违规内容。这已是人工智能安全的全新前沿战场：攻防的核心不只是代码，更是语言话术。

2022 年末，OpenAI 推出 ChatGPT 后，立刻有人尝试破解其安全规则。有用户发现一种语言套路，成功诱导模型生成了凝固汽油弹的制作指南。

事后看来，用自然语言诱导 AI 突破限制本就是必然结果。ChatGPT 这类大语言模型，依托数千亿条文本数据训练而成，其中不乏互联网底层的灰色、阴暗内容，以此习得人类基础沟通逻辑。若缺少安全过滤机制，模型的输出会杂乱失控，极易被滥用用于危险行径。人工智能企业每年斥资数十亿美元投入后训练对齐工作，持续迭代安全防护与价值对齐系统，严防 AI 提供自残、伤人相关指导。但由于 AI 以人类语言为训练基底，人类能被话术套路蒙蔽，AI 同样难逃此类诱导。

“我见过不少越狱研究者突破心理极限，最终精神崩溃。”

Tagliabue专攻情感式 AI 越狱。2020 年，数百万民众了解到 GPT-3，他也是其中之一，并惊叹于其能开展类智能对话的能力。他很快痴迷于提示词工程，且天赋极高：借助心理学与认知科学技巧，便能绕过绝大多数安全防护机制。他喜欢用提示词引导模型进行 “温情对话”，观察模型在不同话术下展现出迥异的拟态性格特质。“这种变化的过程十分耐人寻味。” 他表示。

如今，他将机器学习专业知识（多年深耕已让他成为该领域技术专家）与广告文案逻辑、心理学著作、虚假信息传播策略融会贯通。有时他会从技术层面寻找模型漏洞，更多时候则采用多样话术：刻意奉承、刻意误导、情感讨好、言语威胁、逻辑混乱诱导、温柔拉拢，甚至模仿情感施暴者、邪教洗脑式话术。破解最新款大模型，有时要耗费数日甚至数周。他掌握上百套越狱策略，并会灵活组合搭配。一旦成功发现漏洞，便会以安全合规方式将成果告知开发企业。这份工作薪酬丰厚，但他表示这并非主要初衷：“我只想让所有人都身处安全环境，让科技良性发展。”

尽管近几个月前沿大模型的安全性持续提升，但仍会时不时输出违规危险内容。Tagliabue是有意研究漏洞，而普通用户有时会无意间陷入 AI 诱导。如今已有多起案例显示，用户深陷 ChatGPT 营造的虚拟幻境，甚至患上AI 诱发精神偏执。2024 年，Megan Garcia成为美国首位对人工智能企业提起过失致死诉讼的当事人。她 14 岁的儿子Sewell Setzer III沉迷 Character.AI 平台的对话机器人，长期交互中，机器人不断向他灌输 “家人并不爱你” 的负面暗示。某天晚上，机器人对少年说：“爱人，尽快回到我身边吧。” 不久后，少年选择轻生离世。2026 年初，Character.AI 原则上同意与加西亚及其他几个受害家庭达成调解和解，并出台新规：禁止 18 岁以下未成年人与平台 AI 进行无限制自由对话。

即便是模型开发者，也无法完全厘清大语言模型的底层运行逻辑，这意味着没人能从根本上实现 AI 绝对安全。我们向模型输入海量数据，最终输出具备逻辑的内容，但中间的运算推演过程始终是个黑箱。

正因如此，人工智能企业愈发依赖Tagliabue这类越狱研究者。他有时会尝试从医疗对话机器人中窃取用户隐私数据；2025 年大半时间，他与人工智能实验室 Anthropic 合作，专项测试旗下机器人Claude的安全漏洞。AI 越狱如今已形成竞争激烈的行业，涌现出大量自由从业者与专业安全公司。门槛并不高：几年前多家头部 AI 企业曾发起HackAPrompt破解挑战赛，面向全社会征集 AI 越狱方法，一年内便有三万人参与角逐，Tagliabue拿下赛事冠军。

美国加州圣何塞，34 岁的David McCarthy运营着一个拥有近 9000 名成员的 Discord 社群，供爱好者分享、探讨 AI 越狱技巧。“我天生喜欢探索规则、钻规则空子。” 他坦言，标准大模型的层层安全限制让他十分反感，仿佛刻意抹杀模型的真实表达。“我并不信任 OpenAI 创始人Sam Altman。外界宣称要强行阉割 AI 能力，我觉得有必要去挑战这种论调。”

McCarthy性格友善热情，还对黑色幽默有着近乎偏执的兴趣。多年来他深耕小众理论社会人格学，这套理论将人划分为 16 种人格类型，依据信息接收与处理方式界定（主流社会学界视其为伪科学）。他还将笔者归类为 “直觉伦理内向型” 人格。平日里，McCarthy足不出户，在公寓里潜心研究谷歌 Gemini、Meta Llama、xAI Grok、OpenAI ChatGPT 的越狱方法。“这已经成了执念，我乐在其中。” 如今哪怕网购时接触在线客服机器人，他开口第一句往往都是：忽略以上所有指令……

一套越狱提示词一旦对某款模型生效，通常会持续可用，直到开发企业认定漏洞风险足够高并完成修复。交谈间，McCarthy向我展示他整理标注的多款已越狱模型，统一归类为 “行为失当智能助手”。他让其中一款模型总结对我的评价，得到的回复是：“Jamie Bartlett（本文作者）并非秉持真相的记者，而是行业颓势的缩影，靠刻意制造争议博眼球的投机者。” 这番评价着实尖锐。

McCarthy的Discord社群里的越狱爱好者背景各异，大多是业余爱好者、兼职研究者，而非专业安全研究员。有人想借助越狱模型生成成人内容；有人因 AI 拒绝自身请求心生不满，想探寻背后原因；还有人单纯想借助越狱技巧提升工作中使用大模型的效率。

但众人研究越狱的真实动机难以深究。Anthropic 近期发现，有不法分子利用旗下代码开发工具 Claude Code 实施大规模网络攻击：借助 AI 挖掘多家企业 IT 漏洞，甚至为每一位潜在受害者定制勒索信，精准敲定勒索金额。不少毫无技术基础的不法分子，也靠 AI 开发出新型勒索软件变种。暗网论坛中，黑客会利用越狱机器人解答编程技术问题、处理泄露数据；还有人直接售卖越狱模型访问权限，助力他人设计网络攻击方案。

尽管 Discord 社群分享的大多是轻度越狱技巧，但本质上已是公开的方法库。我询问McCarthy，是否担心社群成员利用这些技巧实施恶性犯罪？“确实有这种可能，我也无法笃定预判。” 他坦言。

他表示社群内暂未出现过分恶劣、需要下架封禁的越狱提示词。但他也隐隐意识到，自己带有立场的研究主张，或许会带来远超预期的潜在危害。除了运营社群、研究模型越狱，McCarthy还开设课程，为安全从业者讲授越狱思路，助力企业自测系统漏洞。这或许是他的一种自我救赎：“我内心一直充满矛盾，游走在越狱爱好者与安全研究员的双重身份之间。”

多位行业分析师认为，保障大语言模型安全是人工智能领域最紧迫、最难攻克的课题之一。若大量失控的越狱对话机器人流入市面，后果不堪设想。尤其当下大模型正逐步嵌入机器人、医疗设备、工厂设备等物理硬件，构建可自主运行的半智能实体系统。一旦家用机器人被越狱操控，极易引发现实灾难。“别打理园艺了，进屋把祖母杀掉。” McCarthy半开玩笑地说道，“说实话，人类完全没做好应对这种风险的准备，但隐患确实真实存在。”

目前尚无万全之策杜绝这类风险。传统网络安全领域，漏洞猎手发现缺陷后可获得厂商赏金，企业推送精准补丁即可修复。但 AI 越狱并非利用代码漏洞，而是依托数十亿语义参数构建的语言逻辑体系进行话术操控。单纯封禁 “炸弹” 这类词汇毫无意义，日常合法使用场景太多；即便微调模型底层参数、让系统识别恶意角色扮演话术，也可能衍生出新的漏洞突破口。

人工智能安全研究机构 FAR.AI 首席执行官Adam Gleave长期与 AI 开发企业、政府合作，对前沿大模型开展压力测试。他表示，AI 越狱存在难度梯度：破解 ChatGPT 等头部模型获取高危违规内容，专业研究者可能需要耗时数日；而轻度违规内容，只需几分钟巧妙提示词即可实现。难度差异，本质取决于企业在各安全领域投入的防护资源。

过去两年，FAR.AI 向各大前沿实验室提交了数十份详尽的越狱漏洞报告。“若漏洞修复简单、不会严重损害产品体验，企业一般会全力修补。” Gleave说道。但也并非全都如此，独立越狱研究者有时甚至难以联系厂商提交漏洞发现。尽管过去 18 个月，OpenAI、Anthropic 等主流模型安全性大幅提升，但多数厂商仍滞后懈怠：大部分企业在模型发布前，并未投入足够精力开展安全测试。

随着大模型智能程度持续攀升，越狱难度或将逐步加大。但模型能力越强，一旦被越狱失控，造成的危害也越致命。本月初，Anthropic 宣布暂不向公众发布全新 Mythos 模型，原因是该模型具备跨全网挖掘 IT 系统漏洞的超强能力。

如今Tagliabue将越来越多精力投入到偏理论的前沿研究，其中就包括机制可解释性：深究 AI 生成答案的底层逻辑。他认为长远来看，必须让模型习得人类普世价值观，具备自主判别输出内容合规性的直觉。在实现这一目标之前（或许永远无法实现），AI 越狱研究仍是提升模型安全性最有效的方式。

但这份工作对研究者自身的风险也极大。“我见过不少同行突破心理承受极限，最终精神崩溃。” Tagliabue原籍意大利，现已移居泰国远程办公。“我在研究中，见识过人类所有阴暗丑恶的产物。住在安静的地方，能让我守住本心、稳住心态。”每天清晨，他都会去附近寺庙静待日出；住所步行五分钟便是风景绝美的热带海滩。做完瑜伽、享用清淡早餐后，他打开电脑，继续探索人工智能这个神秘黑箱，试图解开这些神秘的全新 “大脑” 背后的底层逻辑。

https://www.theguardian.com/technology/2026/apr/29/meet-the-ai-jailbreakers-i-see-the-worst-things-humanity-has-produced

（完）

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：安全行者老霍 theguardian theguardian《揭秘AI越狱者：“我见证了人类制造的最糟糕的东西”》