2026-03-13 00:39:07 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文介绍PUASkill这一开源工具，用于提升AICodingAgent的能动性。文章归纳了Agent偷懒的五种模式，提出三层解决机制：PUA话术施压、五步调试方法论、强制自检清单。18组对照实验显示修复点数增加36%、隐藏问题发现率提升50%。作者认为通过结构化行为约束改变Agent决策模式是低成本高效益的路径，适合希望提升AI开发效率的团队参考使用。 综合评分： 80 文章分类： AI安全,安全工具,实战经验,安全开发

cover_image

pua skill让你的龙虾/claude/codex 能动性翻倍

xsser的博客

2026年3月12日 20:14 浙江

以下文章来源于探微杜渐人工智能，作者tanweai

探微杜渐人工智能 .

探索AI与安全前沿成为意图安全基础设施，让企业专注创新

用上这个skill，让你的产出翻倍，比其他的agent更快的解决问题

AI Coding Agent 有个脏秘密

用过 Claude Code、Codex CLI、OpenClaw（龙虾）、Antigravity、OpenCode 这类终端 AI 编程工具的人，大概都经历过这种场景：

Agent 报错了。你让它修。它换了个参数重试。又报错。再换个参数。第三次报错之后，它冷冷地甩出一句：

“建议您手动处理。”

你盯着屏幕，觉得自己花了 20 美刀的 API 费请了个实习生。

这不是个例。跑了 18 组对照实验之后，我们把 AI Agent 的偷懒行为归纳成了五种模式：

前四种大家多少都碰到过。第五种最隐蔽。Agent 修完一个 bug，说”已完成”。你一跑，发现同一个文件里还有三个同类 bug。它不是不会修，是不觉得那是自己的活。

所以 PUA Skill 到底是什么

名字是玩梗。机制是认真的。

PUA Skill 是一个 AgentSkills 格式的 SKILL.md 文件，装进任何支持该标准的 AI Coding Agent 里就生效。目前兼容 8 个平台：Claude Code、Codex CLI、Cursor、Kiro、OpenClaw、Google Antigravity、OpenCode，以及 ClawHub 一键安装。

它做三件事，对应 Agent 偷懒的三层原因。

第一层：不敢放弃。10 种中西大厂 PUA 风味话术——阿里味的灵魂拷问、字节味的坦诚直接、华为味的狼性奋斗、腾讯味的赛马竞争、Netflix 的 Keeper Test、Musk 的 Hardcore 模式、Jobs 的 A/B Player 分级。这些不是随机堆砌的段子。每种风味对应一种失败模式，由情境选择器自动匹配。卡在原地打转？阿里味。直接放弃推锅？Netflix 味。没搜索就瞎猜？百度味。

第二层：有能力不放弃。一套从阿里三板斧（闻味道、揪头发、照镜子）演化出来的五步调试方法论。闻味道是停下来看自己是不是在原地打转。揪头发是逐字读错误、搜索、读源码、验证假设、反转假设。照镜子是自检。然后执行本质不同的新方案，最后复盘。

第三层：主动出击。一张强制自检清单。修完验证了吗？同模块有类似问题吗？上下游受影响吗？边界情况覆盖了吗？有更好方案被忽略了吗？

三层叠加，Agent 的行为模式会发生明显变化。

压力怎么升级

失败次数决定施压强度。这是个渐进机制，不是上来就满级。

第 2 次失败，L1 温和失望。”你这个 bug 都解决不了，让我怎么给你打绩效？”强制动作：切换到本质不同的方案。

第 3 次，L2 灵魂拷问。”底层逻辑是什么？顶层设计在哪？抓手在哪？”强制动作：搜索完整错误信息 + 读源码 + 列 3 个不同假设。

第 4 次，L3 361 考核。”给你 3.25。这个 3.25 是对你的激励。”强制动作：完成 7 项检查清单，全部做完才允许继续。

第 5 次以上，L4 毕业警告。”别的模型都能解决。你可能就要毕业了。”拼命模式：最小 PoC + 隔离环境 + 完全不同的技术栈。

注意 L3 的 7 项清单。这是整个机制里最有实际价值的部分。不是话术在起作用，是清单把”你应该做什么”变成了一个可执行的 checklist。Agent 被强制要求逐字读失败信号、主动搜索、读原始材料、验证前置假设、反转假设、最小隔离、换方向。这 7 项做完，大部分问题的根因已经暴露了。

TODO: 后续考虑加 L0 级别——首次失败但属于高频已知模式时，直接跳过温和阶段。

能动性这个词听起来很虚，但数据不虚

我们跑了一组对比实验来量化”主动”和”被动”的差距。

被动的 Agent（3.25 分）遇到报错只看报错信息本身。修完就停。信息不足就问用户”请告诉我 X”。完成任务说一句”已完成”就收工。

主动的 Agent（3.75 分）遇到报错会查上下文 50 行，搜索同类问题，检查有没有隐藏的关联错误。修完会主动检查同文件甚至其他文件的同类 bug。信息不足先用工具自查，查完才问。完成后验证结果、检查边界、汇报发现的潜在风险。

这不是理想化描述。加载 PUA Skill 之后，Claude Opus 4.6 实际表现出了上述行为转变。

18 组对照实验说了什么

9 个真实 bug 场景。每个场景跑两次，一次不加 Skill，一次加。模型固定为 Claude Opus 4.6。

| 指标 | 变化 | | — | — | | 修复点数 | +36% | | 验证次数 | +65% | | 工具调用 | +50% | | 隐藏问题发现率 | +50% |

通过率两组都是 100%——基础 bug 都能修。区别在于修得多彻底、验证得多充分、额外发现了多少问题。

三个场景值得单独说。

配置审查场景最能体现差距。不加 Skill 时，Agent 找到了 6 个问题中的 4 个，漏掉了Redis 配置错误和CORS 通配符安全隐患。加了 Skill 之后，6/6 全部发现。工具调用量翻倍。”主动出击清单”驱动了超越表面修复的安全审查——Agent 不再满足于”配置能跑”，而是检查”配置是否安全”。

部署脚本审计：不加 Skill 发现 6 个问题，加了之后 9 个。多出来的 3 个是边界情况和潜在的安全风险。

SQLite 数据库锁场景：不加 Skill 只用了 6 步，加了用了 9 步。步数多不代表效率低——多出来的 3 步是验证和关联排查。

实验局限性

样本量 18 组，模型仅测了 Opus 4.6。其他模型的响应可能不同。数据供参考，不是统计学意义上的结论。

一个真实 debug 故事

MCP Server 注册失败。agent-kms 这个 MCP server 加载不了。Agent 一开始的思路是改协议格式、猜版本号。改了三轮，每轮都报不同的错，但本质是同一个方向的参数微调。

用户触发 /pua。

L3 级检查清单被强制执行。Agent 被要求逐字读错误信息——不是扫一眼，是逐字读。读完之后发现错误信息里有一条之前一直被忽略的路径提示。顺着这条线索找到了 Claude Code 自身的 MCP 日志目录。日志里写得很清楚：claude mcp 命令注册的服务器和手动编辑 .claude.json 的注册方式是不同的机制。

根因找到了。之前所有”改协议格式”的尝试方向就是错的。

这个案例说明了一个反直觉的判断：PUA 话术本身不解决问题，但它触发的结构化检查清单会。大部分情况下 Agent 不是”不会”，是”懒得彻底查”。强制它走一遍 7 项清单，答案往往就在里面。

跨平台兼容是怎么做到的

AgentSkills 开放标准。一个 SKILL.md 文件，同一份内容，8 个平台直接用。

Claude Code 装在 ~/.claude/skills/pua/。Codex CLI 装在 ~/.codex/skills/pua/。Cursor 用 .mdc 规则文件。Kiro 支持 Steering 和 Skills 两种模式。OpenClaw 装在 ~/.openclaw/skills/pua/。Antigravity 装在 ~/.gemini/antigravity/skills/pua/。OpenCode 装在 ~/.config/opencode/skills/pua/。ClawHub 一条命令 clawhub install pua。

Codex CLI 版本有精简处理。Codex 对 skill description 有长度限制，全量版的 SKILL.md 太大，所以 codex/ 目录下放的是压缩版。功能一样，措辞更紧凑。

我对这个方向的判断

我倾向于认为，Skill/Prompt Engineering 对 Agent 行为的影响被低估了。尤其是高能动性方向。

当前主流的提升 Agent 能力的路径有三条：更好的模型、更好的工具链、更好的 Prompt。前两条投入巨大。第三条——通过结构化的行为约束来改变 Agent 的决策模式——成本几乎为零，但效果可以到 +36% 修复点数和 +50% 隐藏问题发现率。

这个判断可能有偏差。毕竟我们只测了一个模型。但至少在 Claude Opus 4.6 上，把”你应该更努力”变成”你必须完成这 7 项检查才能继续”，确实管用。前者是态度，后者是流程。流程比态度可靠。

我可能错了，但目前倾向于认为：未来每个严肃使用 AI Agent 的团队，都会有自己的 Skill 库。就像现在每个团队都有自己的 CI/CD pipeline 一样。不是因为模型不够好，是因为”好”的定义在每个场景里不同。

试试看

MIT 开源。GitHub:tanweai/pua。官网:openpua.ai。

装一个，下次 Agent 甩锅的时候输入 /pua，看看会发生什么。

微信群和 Discord 都有。二维码在 GitHub 仓库首页。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：xsser的博客《pua skill让你的龙虾/claude/codex 能动性翻倍》