puaskill让你的龙虾/claude/codex能动性翻倍

admin 2026-03-13 00:39:07 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本文介绍PUASkill这一开源工具,用于提升AICodingAgent的能动性。文章归纳了Agent偷懒的五种模式,提出三层解决机制:PUA话术施压、五步调试方法论、强制自检清单。18组对照实验显示修复点数增加36%、隐藏问题发现率提升50%。作者认为通过结构化行为约束改变Agent决策模式是低成本高效益的路径,适合希望提升AI开发效率的团队参考使用。 综合评分: 80 文章分类: AI安全,安全工具,实战经验,安全开发


cover_image

pua skill让你的龙虾/claude/codex 能动性翻倍

xsser的博客

2026年3月12日 20:14 浙江

以下文章来源于探微杜渐人工智能 ,作者tanweai

探微杜渐人工智能 .

探索AI与安全前沿成为意图安全基础设施,让企业专注创新

用上这个skill,让你的产出翻倍,比其他的agent更快的解决问题

AI Coding Agent 有个脏秘密

用过 Claude Code、Codex CLI、OpenClaw(龙虾)、Antigravity、OpenCode 这类终端 AI 编程工具的人,大概都经历过这种场景:

Agent 报错了。你让它修。它换了个参数重试。又报错。再换个参数。第三次报错之后,它冷冷地甩出一句:

“建议您手动处理。”

你盯着屏幕,觉得自己花了 20 美刀的 API 费请了个实习生。

这不是个例。跑了 18 组对照实验之后,我们把 AI Agent 的偷懒行为归纳成了五种模式:

| 模式 | 怎么偷的 | | — | — | | 暴力重试 | 同一条命令跑三遍就宣告死亡 | | 甩锅用户 | “可能是环境问题”——但它根本没验证 | | 工具闲置 | 有搜索不搜,有文件不读,有终端不跑 | | 磨洋工 | 反复微调同一行代码,看起来很忙,实际原地打转 | | 被动等待 | 修完表面问题就停下,等你告诉它下一步 |

前四种大家多少都碰到过。第五种最隐蔽。Agent 修完一个 bug,说”已完成”。你一跑,发现同一个文件里还有三个同类 bug。它不是不会修,是不觉得那是自己的活。

所以 PUA Skill 到底是什么

名字是玩梗。机制是认真的。

PUA Skill 是一个 AgentSkills 格式的 SKILL.md 文件,装进任何支持该标准的 AI Coding Agent 里就生效。目前兼容 8 个平台:Claude Code、Codex CLI、Cursor、Kiro、OpenClaw、Google Antigravity、OpenCode,以及 ClawHub 一键安装。

它做三件事,对应 Agent 偷懒的三层原因。

第一层:不敢放弃。10 种中西大厂 PUA 风味话术——阿里味的灵魂拷问、字节味的坦诚直接、华为味的狼性奋斗、腾讯味的赛马竞争、Netflix 的 Keeper Test、Musk 的 Hardcore 模式、Jobs 的 A/B Player 分级。这些不是随机堆砌的段子。每种风味对应一种失败模式,由情境选择器自动匹配。卡在原地打转?阿里味。直接放弃推锅?Netflix 味。没搜索就瞎猜?百度味。

第二层:有能力不放弃。一套从阿里三板斧(闻味道、揪头发、照镜子)演化出来的五步调试方法论。闻味道是停下来看自己是不是在原地打转。揪头发是逐字读错误、搜索、读源码、验证假设、反转假设。照镜子是自检。然后执行本质不同的新方案,最后复盘。

第三层:主动出击。一张强制自检清单。修完验证了吗?同模块有类似问题吗?上下游受影响吗?边界情况覆盖了吗?有更好方案被忽略了吗?

三层叠加,Agent 的行为模式会发生明显变化。

压力怎么升级

失败次数决定施压强度。这是个渐进机制,不是上来就满级。

第 2 次失败,L1 温和失望。”你这个 bug 都解决不了,让我怎么给你打绩效?”强制动作:切换到本质不同的方案。

第 3 次,L2 灵魂拷问。”底层逻辑是什么?顶层设计在哪?抓手在哪?”强制动作:搜索完整错误信息 + 读源码 + 列 3 个不同假设。

第 4 次,L3 361 考核。”给你 3.25。这个 3.25 是对你的激励。”强制动作:完成 7 项检查清单,全部做完才允许继续。

第 5 次以上,L4 毕业警告。”别的模型都能解决。你可能就要毕业了。”拼命模式:最小 PoC + 隔离环境 + 完全不同的技术栈。

注意 L3 的 7 项清单。这是整个机制里最有实际价值的部分。不是话术在起作用,是清单把”你应该做什么”变成了一个可执行的 checklist。Agent 被强制要求逐字读失败信号、主动搜索、读原始材料、验证前置假设、反转假设、最小隔离、换方向。这 7 项做完,大部分问题的根因已经暴露了。

TODO: 后续考虑加 L0 级别——首次失败但属于高频已知模式时,直接跳过温和阶段。

能动性这个词听起来很虚,但数据不虚

我们跑了一组对比实验来量化”主动”和”被动”的差距。

被动的 Agent(3.25 分)遇到报错只看报错信息本身。修完就停。信息不足就问用户”请告诉我 X”。完成任务说一句”已完成”就收工。

主动的 Agent(3.75 分)遇到报错会查上下文 50 行,搜索同类问题,检查有没有隐藏的关联错误。修完会主动检查同文件甚至其他文件的同类 bug。信息不足先用工具自查,查完才问。完成后验证结果、检查边界、汇报发现的潜在风险。

这不是理想化描述。加载 PUA Skill 之后,Claude Opus 4.6 实际表现出了上述行为转变。

18 组对照实验说了什么

9 个真实 bug 场景。每个场景跑两次,一次不加 Skill,一次加。模型固定为 Claude Opus 4.6。

| 指标 | 变化 | | — | — | | 修复点数 | +36% | | 验证次数 | +65% | | 工具调用 | +50% | | 隐藏问题发现率 | +50% |

通过率两组都是 100%——基础 bug 都能修。区别在于修得多彻底、验证得多充分、额外发现了多少问题。

三个场景值得单独说。

配置审查场景最能体现差距。不加 Skill 时,Agent 找到了 6 个问题中的 4 个,漏掉了Redis 配置错误和CORS 通配符安全隐患。加了 Skill 之后,6/6 全部发现。工具调用量翻倍。”主动出击清单”驱动了超越表面修复的安全审查——Agent 不再满足于”配置能跑”,而是检查”配置是否安全”。

部署脚本审计:不加 Skill 发现 6 个问题,加了之后 9 个。多出来的 3 个是边界情况和潜在的安全风险。

SQLite 数据库锁场景:不加 Skill 只用了 6 步,加了用了 9 步。步数多不代表效率低——多出来的 3 步是验证和关联排查。

实验局限性

样本量 18 组,模型仅测了 Opus 4.6。其他模型的响应可能不同。数据供参考,不是统计学意义上的结论。

一个真实 debug 故事

MCP Server 注册失败。agent-kms 这个 MCP server 加载不了。Agent 一开始的思路是改协议格式、猜版本号。改了三轮,每轮都报不同的错,但本质是同一个方向的参数微调。

用户触发 /pua。

L3 级检查清单被强制执行。Agent 被要求逐字读错误信息——不是扫一眼,是逐字读。读完之后发现错误信息里有一条之前一直被忽略的路径提示。顺着这条线索找到了 Claude Code 自身的 MCP 日志目录。日志里写得很清楚:claude mcp 命令注册的服务器和手动编辑 .claude.json 的注册方式是不同的机制。

根因找到了。之前所有”改协议格式”的尝试方向就是错的。

这个案例说明了一个反直觉的判断:PUA 话术本身不解决问题,但它触发的结构化检查清单会。大部分情况下 Agent 不是”不会”,是”懒得彻底查”。强制它走一遍 7 项清单,答案往往就在里面。

跨平台兼容是怎么做到的

AgentSkills 开放标准。一个 SKILL.md 文件,同一份内容,8 个平台直接用。

Claude Code 装在 ~/.claude/skills/pua/。Codex CLI 装在 ~/.codex/skills/pua/。Cursor 用 .mdc 规则文件。Kiro 支持 Steering 和 Skills 两种模式。OpenClaw 装在 ~/.openclaw/skills/pua/。Antigravity 装在 ~/.gemini/antigravity/skills/pua/。OpenCode 装在 ~/.config/opencode/skills/pua/。ClawHub 一条命令 clawhub install pua。

Codex CLI 版本有精简处理。Codex 对 skill description 有长度限制,全量版的 SKILL.md 太大,所以 codex/ 目录下放的是压缩版。功能一样,措辞更紧凑。

我对这个方向的判断

我倾向于认为,Skill/Prompt Engineering 对 Agent 行为的影响被低估了。尤其是高能动性方向。

当前主流的提升 Agent 能力的路径有三条:更好的模型、更好的工具链、更好的 Prompt。前两条投入巨大。第三条——通过结构化的行为约束来改变 Agent 的决策模式——成本几乎为零,但效果可以到 +36% 修复点数和 +50% 隐藏问题发现率。

这个判断可能有偏差。毕竟我们只测了一个模型。但至少在 Claude Opus 4.6 上,把”你应该更努力”变成”你必须完成这 7 项检查才能继续”,确实管用。前者是态度,后者是流程。流程比态度可靠。

我可能错了,但目前倾向于认为:未来每个严肃使用 AI Agent 的团队,都会有自己的 Skill 库。就像现在每个团队都有自己的 CI/CD pipeline 一样。不是因为模型不够好,是因为”好”的定义在每个场景里不同。

试试看

MIT 开源。GitHub:tanweai/pua。官网:openpua.ai。

装一个,下次 Agent 甩锅的时候输入 /pua,看看会发生什么。

微信群和 Discord 都有。二维码在 GitHub 仓库首页。


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:xsser的博客 《pua skill让你的龙虾/claude/codex 能动性翻倍》

    评论:0   参与:  0