鹅厂员工怎么看Agent自动持续进化?

admin 2026-03-05 20:13:36 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 文档整理了腾讯员工对Agent自动进化的见解。核心强调建立量化评估体系与反馈闭环,利用人机协同数据驱动迭代。技术建议包括强化学习、记忆模块及XML上下文工程。观点指出可通过多智能体协作自动优化提示词,将人类转为监督角色。内容为Agent自我优化提供了从评估体系构建到自动化工作流落地的实战参考。 综合评分: 88 文章分类: 实战经验,解决方案,其他


cover_image

鹅厂员工怎么看Agent自动持续进化?

原创

腾讯程序员 腾讯程序员

腾讯技术工程

2026年3月4日 18:00 广东

话题背景

落地一个Agent容易,但通过一定机制自动持续优化Agent却很难,不知道大家当前自动优化agent的方式有哪些?

今天不聊 Agent 怎么搭,来聊聊:让Agent 自己优化自己的方式。

以下为 9 位鹅厂同事 分享的「Agent如何自动持续进化?」,也欢迎大家在评论区也畅所欲言(文末有礼)

鹅厂工程师的看法

@yuchen-游戏客户端开发

关键的关键是建立自己业务的评估体系:对于你的Agent经常执行的任务,该怎么评价AI每次执行结果的好坏,有了量化指标之后才能谈优化。

至于以什么形式去沉淀,如果你对AI的定位是临时工,每次都是一锤子买卖,就比如Coding Assistant,个人理解Skill和Rule比较合适;如果AI的定位是长工,需要它自身有成长,则还需要依赖记忆模块。

@jery-应用开发

这个问题戳中痛点了。

现在很多 agent 项目确实是“首版能跑”,但后面怎么让它越用越聪明就开始没人说清楚了。

感觉关键不是再调几版 prompt,而是有没有把真实任务里的成功和翻车都记录下来,让 agent 能复盘、能调整策略。不然每次都像第一次上岗,永远在同一个坑里反复踩。

挺期待看到更多关于“agent 怎么建立反馈闭环和自我优化机制”的实战经验分享。

@luping-后台开发

Agent优化需要有一套指标度量(比如用户正向/负面反馈、Agent自身的质量数据、用户纠偏的数据),只是这套反馈增强看是由AI自身迭代还是由人工程来迭代,前者更智能可能需要结合Memory做短期/长期记忆来修正Agent行为(类似Agent自我进化),后者更多是人为介入以工程手段优化Agent效果。

之前听到过播客里面提到的一个关于数据质量的观点颇有感触,观点大意是好数据”并不是“全部都正确的数据”,恰恰是那些“有问题但包含了纠正的数据”,因为这些问题+纠正数据就可以驱动Agent更加持续进化(数据飞轮+OnlineTraining),让Agent和模型基座一起进化(不过现实情况很可能是伪需求、低频用户使用Agent在驱动起来之前就被推翻了);

在我们使用ClaudeCode过程中,Human-In-Loop环节每次选择/ESC取消/补充问题修正等过程,相当于人类在帮助Agent进行数据纠正(和自动驾驶安全员类似),这些数据一定层面可以反馈出一个Agent的智能、稳定可靠的程度(是否有人类干预)。

@jhon-后台开发

强化学习了解一下!

@levon-后台开发

LLM 有两种知识。一种是模型的知识,一种是上下文的知识。

数学角度看,【模型矩阵】和【上下文向量】,粗暴地说最后是要乘到一块去的。

但【模型】是被冻结的部分,【上下文】是不断改变的部分。在现有结构下,持续学习只有两条路:

1. 模型不再冻结,可塑性。

2. 巧妙的上下文工程,也就是 “工具交互和聊天记录” 的巧思。

第一条留给训模高手来做。

第二条是当下的最热方向,创新空间巨大。

@jeff-应用开发

结合元认知和本体论思想来设计Agent:

一方面依托本体知识库赋予Agent理解世界的能力,另一方面依托元认知赋予Agent对思考本身进行思考和进化的能力。

@rhysr-研发

通过AI模型来逐步优化system_message定义。

它是一个设定AI模型行为规范的声明,定义了Agent行为的基本规则和上下文,能够帮助模型更好的理解用户意图并正确调用工具完成任务。这里用自动化浏览器举例说下,通过AI模型模拟用户操作浏览器完成网页填写/浏览/提取等:

使用xml格式能够更加规范的表达基本规则,有助于模型的理解上下文逻辑,比常规的用字符串来简单定义几句话,效果要好得多!

@eric-技术产品

如何 “自动、持续” 进化,这是个很实际的问题。

先说结论,我个人认为 AI agent 已经完全具备自我进化的「条件」了。

和传统软件工程的迭代模式不同的是,新时代的AI Agent 产品,效果优劣几乎完全取决于提示词和上下文管理的设计。而目前,就大家基于各种 AI 工具摸索出来的工作模式,Agent 产品的迭代其实已经演变成了:

产品与研发调教出一个初步的版本;

–> 人工测试 agent 的各种核心、边界场景,并沉淀出黄金评测集;

–> 工程师提出具体的错误用例和可能的原因 ;

–> 把错误和修改建议丢给 AI,让 coding agent 进一步优化提示词(别说你手工撸提示词,在我的日常观察中,很少有人自己从0手写prompt);

–> 工程师审核,并基于黄金测评集再次测试;

–> 测试通过,发布为修订版本;

重新复盘上面这个工作流程,会发现人类在其中起到的作用只不过是监督、引导和审核。既然这样,这个SOP中的很多环节,是否很多可以由 AI 直接取代、自主执行?LLM-as-judge 的形态已经不罕见了,agent 产品应该也是同理。

设想一下,假如:在每一次测评中,引入另外一个muti-agent,用于AI产品的测试。在每个 case 中,spec agent 评测最终结果的质量与正确性。若它认为某个测试用例不通过,那么将自主分析错误原因、分派任务给 coding subagent。后续则由 subagent 重新复盘、优化系统提示词,并提交 pr 给人类review。这个流程可能还涉及很多细节,例如错误归因是否需要有置信度阈值(只有高置信度的归因才触发自动修复)、人类在其中如何干预和监督。但总的来说,目前的技术手段是完全可行的。

再形而上的来说,AI 时代所谓的“测试驱动开发”的最佳范式,人类大概率会彻底从‘执行者’变为‘守门员’和‘裁判’了。

@zhiyuan-前端开发

之前一篇讲数字分身帮我24h打工的内容其中的一段,想必回答了这个问题

欢迎在评论区分享

[你如何看待Agent自动持续进化?]****

🎁关注有礼

关注【腾讯技术工程】账号后台回复【Q币】

可随机抽取2位同学送出100Q币


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:腾讯技术工程 腾讯程序员 腾讯程序员《鹅厂员工怎么看Agent自动持续进化?》

评论:0   参与:  0