文章总结: 本文介绍wooyun-legacy插件化更新,通过12组benchmark量化skill价值。测试显示with_skill在72断言中全过,without_skill过47个,差距源于WooYun特有的案例引用与统计数据。核心发现是Claude本身安全知识扎实,skill价值在于注入中国本土化历史漏洞案例。文章还扩展了触发范围覆盖黑盒测试场景,并说明2010-2016年数据在现代技术栈上的局限。 综合评分: 88 文章分类: AI安全,安全工具,WEB安全,漏洞分析,安全建设
WooYun Legacy skill 更新了
xsser的博客
2026年3月6日 19:17 浙江
以下文章来源于探微杜渐人工智能 ,作者tanweai
探微杜渐人工智能 .
探索AI与安全前沿成为意图安全基础设施,让企业专注创新
把 wooyun-legacy 从一个松散的 Claude Code Skill 转成了标准插件格式,顺便跑了一轮 12 组全领域 benchmark。记录一下做了什么、为什么这么做、数据说明了什么。
插件化
之前 wooyun-legacy 就是一个 ~/.claude/skills/wooyun-legacy/ 目录,里面扔了 SKILL.md 和 references。能用,但安装靠手动 clone,别人想装得自己知道放哪。
现在改成了插件
一行装完:
claude plugin add github:tanweai/wooyun-legacy
改动不大,就是加了 .claude-plugin/plugin.json,把 SKILL.md 和 references 挪进 skills/wooyun-legacy/。Claude Code 的插件发现机制会自动扫描 skills/ 下的子目录找 SKILL.md。
Benchmark:12 组对照测试
这是这次更新里比较有意思的部分。
测试设计
12 个测试用例,覆盖 skill 定义的全部 6 个领域。
每个输出用 6 个断言评分。断言分两类:
WooYun 特有断言:要求引用具体公司案例、给出量化统计数据
领域专业断言:攻击模式覆盖、测试步骤可执行性、修复建议等
| 测试 | 领域 | | — | — | | payment-security | 金融 | | idor-authorization | 授权 | | banking-full-audit | 跨领域 | | password-reset | 认证 | | info-disclosure | 信息 | | config-hardening | 配置 | | code-review | 金融+授权 | | src-bounty | 跨领域 | | race-condition | 逻辑流 | | weak-credentials | 认证 | | captcha-bypass | 认证 | | cloud-misconfig | 配置 |
结果
72 个断言,with_skill 全过,without_skill 过了 47 个。
差距全部来自 WooYun 特有断言。without_skill 的 24 个 WooYun 断言(案例引用 + 统计数据)全部失败,一个都没过。领域专业断言倒是 47/48 通过,只有 IDOR 的「任意操作」分类没答上来。
这说明一个事:Claude 本身的安全知识够用,测试步骤、攻击模式、修复建议这些不需要 skill 也能写。skill 的价值完全在于注入 WooYun 的历史数据——真实公司案例、统计比例、独有分类法,也就是场景下的真实业务特征,比如运营商常见的,这些都是中国才会有的特色,这也是wooyun的价值,如果你只是认为claude code就可以完成任何事情了,那么你对网络安全的价值判断就非常低。
token 开销大概多 46%(41K vs 28K),时间多 35%(222s vs 164s)。一个有意思的异常是 captcha-bypass 在 without_skill 下用了 89K token,比 with_skill 的 35K 多了一倍多。没有 skill 引导方向,模型在那儿打转。
我对这个数据的判断
100% vs 64.6% 看着很漂亮,但要诚实地说:这个 benchmark 本身就是按 skill 的能力边界设计的。WooYun 案例引用和统计数据这两类断言,without_skill 不可能通过——模型的训练数据里不太会有 WooYun 的具体案例细节。所以这个 +54.8% 更多是在量化”skill 到底注入了什么”,而不是在说”没有 skill 就不能做安全测试”。
真正值得关注的是 without_skill 领域断言 98% 的通过率。这意味着 Claude 做业务逻辑安全测试的底子很扎实,skill 是在这个底子上叠了一层真实案例数据。
触发范围扩展
之前的 description 只列了显式安全关键词。实际使用中发现,做黑盒测试的人经常不会说”安全审计”,他们说的是”帮我测测这个接口”、”这个参数能不能改”、”怎么绕过这个限制”。
扩展了三层触发:
显式关键词——渗透测试、安全审计、IDOR、SRC 这些,原来就有。
隐含黑盒场景——”帮我测测接口”、”看看有没有问题”、”find bugs”、”test this endpoint”。用户在描述安全测试但没用安全术语。
工具和手法词——Burp Suite、抓包、重放、爆破、薅羊毛、刷单、fuzz、enumerate。提到这些工具或手法,基本就是在做安全相关的事。
TODO: 还没跑触发率的量化评测(skill-creator 有个 run_loop.py 可以做这个),后面有空再补。
数据年代的问题
WooYun 数据是 2010-2016 的。OAuth 2.0、GraphQL、Serverless、K8s 等前沿的技术,这些当时要么不存在要么还没流行。所以 skill 在现代技术栈的覆盖上确实有短板。
但业务逻辑漏洞有个特点:攻击模式比技术栈更稳定。”修改金额参数看服务端是否校验”这个测试,2012 年管用,2026 年还是管用。支付绕过、越权遍历、状态机跳转这些模式,跟用什么框架关系不大。
所以我在 README 里加了一段说明,不藏着掖着:数据老,部分场景效果有限,但思维模式和攻击分类在技术迭代中保持稳定。
仓库地址
github.com/tanweai/wooyun-legacy
安装:claude plugin add github:tanweai/wooyun-legacy
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:xsser的博客 《WooYun Legacy skill 更新了》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。











评论