文章总结: 文档分析AIAgent工程从提示词工程、上下文工程到HarnessEngineering的演进过程,指出安全风险从内容生成层逐步扩展到上下文层、权限层和执行层。关键发现包括:提示词阶段风险集中在输入输出偏差,上下文阶段面临信息供应链污染,Harness阶段出现目标劫持、权限滥用和执行链失控等行动安全风险。建议建立全链路安全体系,加强工具调用权限管控、上下文隔离和审计回溯机制。 综合评分: 87 文章分类: AI安全,安全建设,解决方案,安全运营,技术标准
从提示词到 Harness:Agent 工程演进中的安全风险变化
卓越示范中心 卓越示范中心
中国网络安全产业公共服务平台
2026年4月29日 09:38 北京
在小说阅读器读本章
去阅读
随着大模型应用从提示词工程、上下文工程,快速迈向Harness Engineering,AI Agent 的能力持续突破边界,安全风险也同步发生本质演变—不再局限于输出错误、内容失真,而是延伸至上下文污染、目标劫持、权限滥用与执行链失控。早期的提示词工程,核心是把任务说清楚,让模型稳定输出预期结果;随后兴起的上下文工程,更关注模型 “看到什么、如何组织信息”;而如今的Harness Engineering,聚焦Agent 运行框架、工具调用权限、约束规则、异常中止与审计回溯。这看似是工程方法的升级,实则是安全风险从模型输出层,全面扩展到上下文层、权限层、执行层的关键转折。
01
提示词工程阶段:风险主要停留在输入与输出层
提示词工程是Agent发展的起点,核心解决 “怎么问” 的问题,此时安全风险相对单一,主要集中在输入与输出层面。
典型问题是攻击者通过构造恶意输入,诱导模型偏离任务、绕过约束、泄露敏感信息,或生成有害内容。这类风险的核心是生成结果偏差,多表现为 “说错话、答错题、暴露不该说的内容”。
此阶段风险边界清晰,影响基本停留在内容生成层面,即便模型被诱导,也多是输出异常,不会直接对外部系统产生动作性影响。安全治理重点围绕提示词注入、防越狱、防敏感信息泄露、防不当内容生成展开,通过输入过滤与输出审查即可实现基础防护。
02
上下文工程阶段:风险开始从“说错”转向“看错”
随着检索增强、长上下文、多轮记忆、工作流编排普及,模型的 “认知输入” 不再只是单条提示词,而是包含系统指令、对话历史、检索结果、知识库、长期记忆、多Agent传递信息的复杂集合。
能力提升的同时,攻击面大幅扩大。安全问题不再是 “有人对模型说了什么”,而是 “谁能影响模型看到的信息,就能左右其判断”。
常见风险场景包括:外部知识源被污染、检索结果投毒、长期记忆残留恶意内容、历史会话带入错误约束、中间步骤结果失真。此时模型并非被 “说服”,而是被 “误导”,即便推理逻辑连贯,也会因错误上下文得出偏离目标的结论。
这一阶段的核心变化是,风险从单次输入攻击转向上下文供应链风险。仅靠输入输出管控已不足够,安全控制需升级为:保障检索源可信、做好上下文隔离、及时清理记忆、标注信息来源、保护中间状态。
03
Harness Engineering阶段:风险真正进入“行动安全”
Harness Engineering是Agent 安全的真正分水岭。此时 Agent不再是单纯 “生成回答” 的模型,而是能理解目标、拆解任务、调用工具、访问资源、触发外部动作的执行主体,安全风险性质发生根本改变。
1.从 “内容偏差” 到 “目标劫持”
攻击者无需让模型输出明显错误内容,只需影响其任务理解、目标拆解或优先级排序,就能让Agent看似正常执行,实则偏离原始意图。这种风险更隐蔽,没有明显异常,却会完成用户不想要的操作。
2.从 “信息错误” 到 “权限滥用”
当Agent可调用浏览器、代码执行、文件系统、数据库、内部接口等工具时,安全核心不再是 “答得对不对”,而是权限是否可控:授权是否过宽、令牌是否安全、调用是否校验、关键动作是否确认。
一旦权限管控缺失,一次判断失误就会引发越权访问、数据删除、敏感信息泄露,甚至造成业务故障。安全边界从模型本体,延伸至数字身份、细粒度授权、工具调用链。
- 从“单轮失误”到 “执行链失控”
Agent通过 “接收目标—理解上下文—制定计划—调用工具—迭代决策” 的循环完成任务,执行链路越长,风险越容易级联放大:污染的上下文触发错误工具选择,错误调用生成错误状态,持续偏航最终转化为现实系统故障。此时风险不再是单次回答出错,而是整条执行链失去可控性。
04
总结
Agent工程的演进,让AI从 “回答问题”走向“采取行动”。如今讨论Agent安全,不能只问 “模型会不会被诱导”,更要追问:它看到了什么?依据什么判断?能调用什么工具?代表谁行动?动作如何被限制、验证、审计?出错后谁来负责?从提示词到 Harness,是能力的飞跃,更是安全的全新课题只有跟上工程演进的节奏,建立全链路、系统化的安全体系,才能让AI Agent在释放价值的同时,守住安全底线。
END
感谢您的关注~
网络安全卓越验证示范中心
中国网络安全产业公共服务平台
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:中国网络安全产业公共服务平台 卓越示范中心 卓越示范中心《从提示词到 Harness:Agent 工程演进中的安全风险变化》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。











评论