2026-05-25 04:15:06 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 张谧教授指出AI智能体在API调用模式下传统安全护栏被削弱，安全风险从内容生成延伸至工具调用与权限滥用。当前大模型内生安全主要防护内容生成，对智能体行动约束不足，需通过模型厂商强化能力边界、开发者遵循最小权限原则、用户保留操作授权来重建安全护栏，并建立风险分层机制平衡开放与安全。 综合评分： 85 文章分类： AI安全,应用安全,安全建设,解决方案

cover_image

访谈资讯｜张谧教授就“AI智能体浪潮下的安全护栏治理”话题答南都记者问

原创

复旦白泽战队复旦白泽战队

复旦白泽战队

2026年5月24日 20:03 上海

在小说阅读器读本章

去阅读

近日，张谧教授接受南都大数据研究院记者专访，聚焦AI智能体浪潮下的安全护栏治理问题，剖析大模型API在智能体应用场景中的安全风险，并对智能体时代的模型内生安全、权限管控与合规边界建设提出针对性的优化建议。

访谈链接：《实测AI智能体：记得自身内容规范，仍交出大篇不良内容》

往期访谈：《社交平台流传隐晦提示词，诱导AI生成低俗违规内容》

往期访谈：《复旦大学张谧：大模型工具本无善恶，向善引导是关键》

往期访谈：《七成受访者曾中招转发，AI作假如何治？来看技术魔法》

往期访谈：《AI回答可能是广告！实测：推荐品牌可疑雷同，低质信源频现》

往期访谈：《警惕黑化！实测十款：部分AI可被恶意指令污染输出危险内容》

往期访谈：《评测披露大模型内容安全隐患，专家：需像人一样学习安全本质》

AI智能体兴起：安全护栏面临新挑战

今年以来，以 Hermes、OpenClaw 等为代表的AI智能体（Agent）产品迅速走红。与公众熟悉的 ChatGPT、豆包等会话应用不同，部分智能体不再主要通过厂商官方界面与用户交互，而是以第三方应用形态，直接通过API调用底层大模型能力为用户提供服务。

这一架构变化带来了新的安全挑战。在官方会话界面中，厂商通常会部署输入侧关键词过滤、意图识别，以及输出侧内容审查、风险拦截等多层安全护栏。但在API调用模式下，交互数据可能更直接地进入模型，部分传统输入/输出侧防护机制被削弱，内容安全更加依赖大模型自身的安全对齐能力。

更值得关注的是，智能体往往被赋予工具调用、代码执行、外部数据检索等能力，攻击面随之扩大。用户即使不掌握复杂的提示词工程，也可能通过系统提示注入、多轮对话拆分、间接提示污染等方式，诱导模型生成违规内容，甚至触发越权操作。

本次采访希望从智能体技术架构、内容安全、权限边界等角度，探讨AI智能体快速发展背景下的安全风险与治理难点。

访谈内容

此前大模型厂商为会话应用构建了完善的输入侧和输出侧安全护栏，为什么这些护栏在API调用模式下失效了？技术层面的核心卡点在哪里？

大模型厂商的安全护栏并非“失效”，而是API与会话应用的设计目标不同。

会话产品面向普通用户，通常在输入、输出侧部署较严格的内容过滤，而API主要面向开发者，更强调灵活性与可集成性，因此开放的是更接近底层模型的接口。许多厂商在API层仅保留针对色情、暴力等绝对红线的限制，大量内容安全责任被转移给开发者自行实现。

OpenAI、Anthropic等厂商也提供了配套的内容审核工具，并明确建议API调用方自行接入，这说明API调用本身不包含完整的输出审查机制。

当外部护栏失效后，内容安全高度依赖大模型自身的安全对齐能力。您认为当前主流大模型的内生安全水平，能否独立支撑智能体时代的合规要求？

当前大模型的内生安全，仍主要围绕“生成内容”进行防护，而对智能体场景下“如何行动”的约束明显不足。智能体接入工具、网页、记忆库和外部数据库后，风险不再只来自用户提示词，还可能通过间接提示词注入、记忆污染等方式进入系统，这超出了多数模型内生安全策略的覆盖范围。

智能体时代的内容合规，已经不只是防止模型“说错话”，更是要约束它不能“做错事”。现有安全对齐大多停留在对话层面，对多阶段任务中的工具权限、调用顺序和执行后果，缺乏稳定、实时的判断能力，因此难以独立支撑智能体时代的合规要求。

除了内容安全风险，智能体的自主规划、多步执行和工具调用能力，还可能带来哪些更隐蔽、更严重的安全隐患？例如数据泄露、权限滥用、自动化攻击等。

除了内容安全，智能体更大的风险在于“将错误转化为行动”。一方面，智能体更容易受到“间接提示注入”攻击，恶意指令可能隐藏在网页、文档、邮件或检索结果中，诱导模型偏离原有工作流，甚至被写入记忆库，形成跨会话、长期性的安全影响，其危害远高于传统越狱攻击造成的单次违规输出。

另一方面，智能体具备多步推理与工具调用的能力，一旦接入数据库、操作系统或办公平台，模型的错误决策就可能转化为写入、转账或授权等实际操作。若缺乏权限隔离与人工审核机制，这类错误不仅会导致数据泄露和权限滥用，还可能被放大为自动化攻击与不可逆的系统性事故。因此，智能体安全的核心，已不再只是约束生成内容，而是对上下文、权限与工作流的系统化治理。

大模型原生安全与外挂式安全护栏相比，在防护效果、成本和灵活性上有哪些优劣？

从防护效果看，外挂式安全护栏更像“硬屏障”，通过输入检测、输出过滤等规则快速拦截风险，部署也较轻量，但容易出现误判、漏判，甚至因“过度拦截”而影响用户体验。相比之下，大模型原生安全更接近“软约束”，主要依赖指令微调、偏好对齐等训练机制，把安全行为内化到模型能力中。虽然前期训练成本更高、周期更长，但一旦对齐充分，通常具备更强的鲁棒性与泛化能力。

从灵活性看，外挂护栏便于快速迭代，能及时响应新型风险和平台规则变化。而原生安全往往依赖持续训练，迭代成本更高，但形成的安全能力更稳定、覆盖面更广。因此，当前业界更倾向于将二者结合，在“快速可控”与“长期稳健”之间取得平衡。

对于模型厂商、智能体开发者、用户等各方而言，有哪些可落地的手段来重建安全边界？

对厂商而言，重点在于强化“模型能力边界”，使智能体在高风险场景中具备感知、判断和及时止损的能力。相较于对话大模型，智能体不仅涉及内容生成，还涵盖工具调用、文件访问、任务规划等复杂链路，因此厂商需要在模型上线前，开展系统性的风险评估，并在发布后持续迭代防护策略。

对开发者而言，核心是维护“工具与环境边界”，应遵循“最小权限原则”，对工具调用、代码执行等敏感环节实施权限隔离与沙箱化管理。同时，合理使用厂商提供的内容审核、工具返回值校验等防护工具，降低越权操作风险。

对用户而言，应明确“授权与确认边界”，将智能体操作的“最终决定权”保留在自己手中。尤其在邮箱、网盘、支付等敏感场景，应谨慎授权、定期检查，并对高风险操作进行人工确认。

除了强化模型原生安全，模型厂商在API层面可以采取哪些有效的防护措施？大模型厂商是否应该对所有API调用的内容安全承担兜底责任？如何平衡“提供开放能力”和“管控安全风险”之间的关系？

API层面的安全防护，应从“内容安全”转为面向智能体的系统性防御。厂商的安全护栏，不仅要关注用户输入，还需覆盖网页内容、工具描述、搜索导航等关键环节，并将外部内容与系统指令严格隔离，防止恶意网页或第三方工具通过“间接提示注入”影响智能体决策。

进入智能体时代后，内容安全已扩展为信息流、权限与行为链路的综合安全问题。风险不仅来自模型本身，也与开发者如何接入外部数据、配置权限、设计工作流密切相关，因此需要厂商、开发者与用户共同承担责任。

同时，“开放能力”与“安全管控”并非零和关系。大模型的工具调用能力，本就是智能体发展的重要基础，不能因存在风险而过度收紧。更合理的做法是建立风险分层机制，对金融、医疗等高风险场景强化审核与监控，在低风险场景保持合理开放，在保持生态活力的同时提升整体安全水平。

有人担心过度的安全限制会扼杀智能体的创新活力，您如何看待安全与创新之间的关系？

安全与创新并非对立，真正有效的安全机制，是为技术创新提供制度保障，而不是以“一刀切”的方式限制技术发展。

智能体技术涉及多维度输入与高操作权限，天然面临更广泛的安全风险，因此治理的重点应在“事前预判与主动防控”，而非事后补救。安全不应被视为创新的阻力，在智能体治理中，更合理的路径是建立分级、分类的安全标准。对于日常助手、企业办公、医疗诊断等不同场景，应精准识别其操作权限、数据来源与行为链条中的潜在风险，并制定与场景相匹配的“安全底线”，而非套用统一规则。

简介

张谧教授

研究

方向

专注于AI安全、大模型与智能体安全研究，研发Jade安全评测与治理平台。

标准

制定

联合起草国家标准《生成式人工智能服务安全基本要求》，参与《智能体应用安全基本要求》、《人工智能拟人化互动服务安全基本要求》、信安标委《人工智能安全标准化白皮书》《生成式人工智能服务内容标识方法》等多项国家标准制订和建议。

产研

合作

主持科技部重点研发计划课题等，并主持奇安信、阿里、华为等企业项目。

学术

成果

每年持续在网络安全与AI领域顶会顶刊发表学术成果，包括S&P、USENIX Security、CCS、TIFS、TPAMI、TKDE、ICML、NeurIPS等。

荣誉

曾获网络安全国际顶尖会议 USENIX Security Symposium 杰出论文奖、网络安全国际顶尖会议ACM CCS 最佳论文提名、CCF科学技术奖自然科学二等奖等荣誉。

人才

培养

培养硕博数十人，毕业生就业去向包括大厂、各大高校等。曾获安全竞赛DEFCON无人驾驶安全攻防赛冠军(两届蝉联)。

媒体

报道

成果被新华社、人民日报、环球网、凤凰网、南方都市报等主流媒体跟踪报道，全网阅读量超千万。

联系邮箱：[email protected]

供稿、排版：王润杰

责编：董佳仪

审核：洪赓

复旦白泽战队

一个有情怀的安全团队

还没有关注复旦白泽战队？

公众号、知乎、微博搜索：复旦白泽战队也能找到我们哦~

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：复旦白泽战队复旦白泽战队复旦白泽战队《访谈资讯｜张谧教授就“AI智能体浪潮下的安全护栏治理”话题答南都记者问》