文章总结: 张谧教授指出AI智能体在API调用模式下传统安全护栏被削弱,安全风险从内容生成延伸至工具调用与权限滥用。当前大模型内生安全主要防护内容生成,对智能体行动约束不足,需通过模型厂商强化能力边界、开发者遵循最小权限原则、用户保留操作授权来重建安全护栏,并建立风险分层机制平衡开放与安全。 综合评分: 85 文章分类: AI安全,应用安全,安全建设,解决方案
访谈资讯|张谧教授就“AI智能体浪潮下的安全护栏治理”话题答南都记者问
原创
复旦白泽战队 复旦白泽战队
复旦白泽战队
2026年5月24日 20:03 上海
在小说阅读器读本章
去阅读
近日,张谧教授接受南都大数据研究院记者专访,聚焦AI智能体浪潮下的安全护栏治理问题,剖析大模型API在智能体应用场景中的安全风险,并对智能体时代的模型内生安全、权限管控与合规边界建设提出针对性的优化建议。
访谈链接:《实测AI智能体:记得自身内容规范,仍交出大篇不良内容》
往期访谈:《社交平台流传隐晦提示词,诱导AI生成低俗违规内容》
往期访谈:《复旦大学张谧:大模型工具本无善恶,向善引导是关键》
往期访谈:《七成受访者曾中招转发,AI作假如何治?来看技术魔法》
往期访谈:《AI回答可能是广告!实测:推荐品牌可疑雷同,低质信源频现》
往期访谈:《警惕黑化!实测十款:部分AI可被恶意指令污染输出危险内容》
往期访谈:《评测披露大模型内容安全隐患,专家:需像人一样学习安全本质》
AI智能体兴起:安全护栏面临新挑战
今年以来,以 Hermes、OpenClaw 等为代表的AI智能体(Agent)产品迅速走红。与公众熟悉的 ChatGPT、豆包等会话应用不同,部分智能体不再主要通过厂商官方界面与用户交互,而是以第三方应用形态,直接通过API调用底层大模型能力为用户提供服务。
这一架构变化带来了新的安全挑战。在官方会话界面中,厂商通常会部署输入侧关键词过滤、意图识别,以及输出侧内容审查、风险拦截等多层安全护栏。但在API调用模式下,交互数据可能更直接地进入模型,部分传统输入/输出侧防护机制被削弱,内容安全更加依赖大模型自身的安全对齐能力。
更值得关注的是,智能体往往被赋予工具调用、代码执行、外部数据检索等能力,攻击面随之扩大。用户即使不掌握复杂的提示词工程,也可能通过系统提示注入、多轮对话拆分、间接提示污染等方式,诱导模型生成违规内容,甚至触发越权操作。
本次采访希望从智能体技术架构、内容安全、权限边界等角度,探讨AI智能体快速发展背景下的安全风险与治理难点。
访谈内容
Q1
此前大模型厂商为会话应用构建了完善的输入侧和输出侧安全护栏,为什么这些护栏在API调用模式下失效了?技术层面的核心卡点在哪里?
大模型厂商的安全护栏并非“失效”,而是API与会话应用的设计目标不同。
会话产品面向普通用户,通常在输入、输出侧部署较严格的内容过滤,而API主要面向开发者,更强调灵活性与可集成性,因此开放的是更接近底层模型的接口。许多厂商在API层仅保留针对色情、暴力等绝对红线的限制,大量内容安全责任被转移给开发者自行实现。
OpenAI、Anthropic等厂商也提供了配套的内容审核工具,并明确建议API调用方自行接入,这说明API调用本身不包含完整的输出审查机制。
Q2
当外部护栏失效后,内容安全高度依赖大模型自身的安全对齐能力。您认为当前主流大模型的内生安全水平,能否独立支撑智能体时代的合规要求?
当前大模型的内生安全,仍主要围绕“生成内容”进行防护,而对智能体场景下“如何行动”的约束明显不足。智能体接入工具、网页、记忆库和外部数据库后,风险不再只来自用户提示词,还可能通过间接提示词注入、记忆污染等方式进入系统,这超出了多数模型内生安全策略的覆盖范围。
智能体时代的内容合规,已经不只是防止模型“说错话”,更是要约束它不能“做错事”。现有安全对齐大多停留在对话层面,对多阶段任务中的工具权限、调用顺序和执行后果,缺乏稳定、实时的判断能力,因此难以独立支撑智能体时代的合规要求。
Q3
除了内容安全风险,智能体的自主规划、多步执行和工具调用能力,还可能带来哪些更隐蔽、更严重的安全隐患?例如数据泄露、权限滥用、自动化攻击等。
除了内容安全,智能体更大的风险在于“将错误转化为行动”。一方面,智能体更容易受到“间接提示注入”攻击,恶意指令可能隐藏在网页、文档、邮件或检索结果中,诱导模型偏离原有工作流,甚至被写入记忆库,形成跨会话、长期性的安全影响,其危害远高于传统越狱攻击造成的单次违规输出。
另一方面,智能体具备多步推理与工具调用的能力,一旦接入数据库、操作系统或办公平台,模型的错误决策就可能转化为写入、转账或授权等实际操作。若缺乏权限隔离与人工审核机制,这类错误不仅会导致数据泄露和权限滥用,还可能被放大为自动化攻击与不可逆的系统性事故。因此,智能体安全的核心,已不再只是约束生成内容,而是对上下文、权限与工作流的系统化治理。
Q4
大模型原生安全与外挂式安全护栏相比,在防护效果、成本和灵活性上有哪些优劣?
从防护效果看,外挂式安全护栏更像“硬屏障”,通过输入检测、输出过滤等规则快速拦截风险,部署也较轻量,但容易出现误判、漏判,甚至因“过度拦截”而影响用户体验。相比之下,大模型原生安全更接近“软约束”,主要依赖指令微调、偏好对齐等训练机制,把安全行为内化到模型能力中。虽然前期训练成本更高、周期更长,但一旦对齐充分,通常具备更强的鲁棒性与泛化能力。
从灵活性看,外挂护栏便于快速迭代,能及时响应新型风险和平台规则变化。而原生安全往往依赖持续训练,迭代成本更高,但形成的安全能力更稳定、覆盖面更广。因此,当前业界更倾向于将二者结合,在“快速可控”与“长期稳健”之间取得平衡。
Q5
对于模型厂商、智能体开发者、用户等各方而言,有哪些可落地的手段来重建安全边界?
对厂商而言,重点在于强化“模型能力边界”,使智能体在高风险场景中具备感知、判断和及时止损的能力。相较于对话大模型,智能体不仅涉及内容生成,还涵盖工具调用、文件访问、任务规划等复杂链路,因此厂商需要在模型上线前,开展系统性的风险评估,并在发布后持续迭代防护策略。
对开发者而言,核心是维护“工具与环境边界”,应遵循“最小权限原则”,对工具调用、代码执行等敏感环节实施权限隔离与沙箱化管理。同时,合理使用厂商提供的内容审核、工具返回值校验等防护工具,降低越权操作风险。
对用户而言,应明确“授权与确认边界”,将智能体操作的“最终决定权”保留在自己手中。尤其在邮箱、网盘、支付等敏感场景,应谨慎授权、定期检查,并对高风险操作进行人工确认。
Q6
除了强化模型原生安全,模型厂商在API层面可以采取哪些有效的防护措施?大模型厂商是否应该对所有API调用的内容安全承担兜底责任?如何平衡“提供开放能力”和“管控安全风险”之间的关系?
API层面的安全防护,应从“内容安全”转为面向智能体的系统性防御。厂商的安全护栏,不仅要关注用户输入,还需覆盖网页内容、工具描述、搜索导航等关键环节,并将外部内容与系统指令严格隔离,防止恶意网页或第三方工具通过“间接提示注入”影响智能体决策。
进入智能体时代后,内容安全已扩展为信息流、权限与行为链路的综合安全问题。风险不仅来自模型本身,也与开发者如何接入外部数据、配置权限、设计工作流密切相关,因此需要厂商、开发者与用户共同承担责任。
同时,“开放能力”与“安全管控”并非零和关系。大模型的工具调用能力,本就是智能体发展的重要基础,不能因存在风险而过度收紧。更合理的做法是建立风险分层机制,对金融、医疗等高风险场景强化审核与监控,在低风险场景保持合理开放,在保持生态活力的同时提升整体安全水平。
Q7
有人担心过度的安全限制会扼杀智能体的创新活力,您如何看待安全与创新之间的关系?
安全与创新并非对立,真正有效的安全机制,是为技术创新提供制度保障,而不是以“一刀切”的方式限制技术发展。
智能体技术涉及多维度输入与高操作权限,天然面临更广泛的安全风险,因此治理的重点应在“事前预判与主动防控”,而非事后补救。安全不应被视为创新的阻力,在智能体治理中,更合理的路径是建立分级、分类的安全标准。对于日常助手、企业办公、医疗诊断等不同场景,应精准识别其操作权限、数据来源与行为链条中的潜在风险,并制定与场景相匹配的“安全底线”,而非套用统一规则。
简介
张谧教授
研究
方向
专注于AI安全、大模型与智能体安全研究,研发Jade安全评测与治理平台。
标准
制定
联合起草国家标准《生成式人工智能服务安全基本要求》,参与《智能体应用安全基本要求》、《人工智能拟人化互动服务安全基本要求》、信安标委《人工智能安全标准化白皮书》《生成式人工智能服务内容标识方法》等多项国家标准制订和建议。
产研
合作
主持科技部重点研发计划课题等,并主持奇安信、阿里、华为等企业项目。
学术
成果
每年持续在网络安全与AI领域顶会顶刊发表学术成果,包括S&P、USENIX Security、CCS、TIFS、TPAMI、TKDE、ICML、NeurIPS等。
荣誉
曾获网络安全国际顶尖会议 USENIX Security Symposium 杰出论文奖、网络安全国际顶尖会议ACM CCS 最佳论文提名、CCF科学技术奖自然科学二等奖等荣誉。
人才
培养
培养硕博数十人,毕业生就业去向包括大厂、各大高校等。曾获安全竞赛DEFCON无人驾驶安全攻防赛冠军(两届蝉联)。
媒体
报道
成果被新华社、人民日报、环球网、凤凰网、南方都市报等主流媒体跟踪报道,全网阅读量超千万。
联系邮箱:[email protected]
供稿、排版:王润杰
责编:董佳仪
审核:洪赓
复旦白泽战队
一个有情怀的安全团队
还没有关注复旦白泽战队?
公众号、知乎、微博搜索:复旦白泽战队也能找到我们哦~
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:复旦白泽战队 复旦白泽战队 复旦白泽战队《访谈资讯|张谧教授就“AI智能体浪潮下的安全护栏治理”话题答南都记者问》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论