2026-03-09 02:33:32 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文介绍wooyun-legacy插件化更新，通过12组benchmark量化skill价值。测试显示with_skill在72断言中全过，without_skill过47个，差距源于WooYun特有的案例引用与统计数据。核心发现是Claude本身安全知识扎实，skill价值在于注入中国本土化历史漏洞案例。文章还扩展了触发范围覆盖黑盒测试场景，并说明2010-2016年数据在现代技术栈上的局限。 综合评分： 88 文章分类： AI安全,安全工具,WEB安全,漏洞分析,安全建设

cover_image

WooYun Legacy skill 更新了

xsser的博客

2026年3月6日 19:17 浙江

以下文章来源于探微杜渐人工智能，作者tanweai

探微杜渐人工智能 .

探索AI与安全前沿成为意图安全基础设施，让企业专注创新

把 wooyun-legacy 从一个松散的 Claude Code Skill 转成了标准插件格式，顺便跑了一轮 12 组全领域 benchmark。记录一下做了什么、为什么这么做、数据说明了什么。

插件化

之前 wooyun-legacy 就是一个 ~/.claude/skills/wooyun-legacy/ 目录，里面扔了 SKILL.md 和 references。能用，但安装靠手动 clone，别人想装得自己知道放哪。

现在改成了插件

一行装完：

claude plugin add github:tanweai/wooyun-legacy

改动不大，就是加了 .claude-plugin/plugin.json，把 SKILL.md 和 references 挪进 skills/wooyun-legacy/。Claude Code 的插件发现机制会自动扫描 skills/ 下的子目录找 SKILL.md。

Benchmark：12 组对照测试

这是这次更新里比较有意思的部分。

测试设计

12 个测试用例，覆盖 skill 定义的全部 6 个领域。

每个输出用 6 个断言评分。断言分两类：

WooYun 特有断言：要求引用具体公司案例、给出量化统计数据

领域专业断言：攻击模式覆盖、测试步骤可执行性、修复建议等

| 测试 | 领域 | | — | — | | payment-security | 金融 | | idor-authorization | 授权 | | banking-full-audit | 跨领域 | | password-reset | 认证 | | info-disclosure | 信息 | | config-hardening | 配置 | | code-review | 金融+授权 | | src-bounty | 跨领域 | | race-condition | 逻辑流 | | weak-credentials | 认证 | | captcha-bypass | 认证 | | cloud-misconfig | 配置 |

结果

72 个断言，with_skill 全过，without_skill 过了 47 个。

差距全部来自 WooYun 特有断言。without_skill 的 24 个 WooYun 断言（案例引用 + 统计数据）全部失败，一个都没过。领域专业断言倒是 47/48 通过，只有 IDOR 的「任意操作」分类没答上来。

这说明一个事：Claude 本身的安全知识够用，测试步骤、攻击模式、修复建议这些不需要 skill 也能写。skill 的价值完全在于注入 WooYun 的历史数据——真实公司案例、统计比例、独有分类法，也就是场景下的真实业务特征，比如运营商常见的，这些都是中国才会有的特色，这也是wooyun的价值，如果你只是认为claude code就可以完成任何事情了，那么你对网络安全的价值判断就非常低。

token 开销大概多 46%（41K vs 28K），时间多 35%（222s vs 164s）。一个有意思的异常是 captcha-bypass 在 without_skill 下用了 89K token，比 with_skill 的 35K 多了一倍多。没有 skill 引导方向，模型在那儿打转。

我对这个数据的判断

100% vs 64.6% 看着很漂亮，但要诚实地说：这个 benchmark 本身就是按 skill 的能力边界设计的。WooYun 案例引用和统计数据这两类断言，without_skill 不可能通过——模型的训练数据里不太会有 WooYun 的具体案例细节。所以这个 +54.8% 更多是在量化”skill 到底注入了什么”，而不是在说”没有 skill 就不能做安全测试”。

真正值得关注的是 without_skill 领域断言 98% 的通过率。这意味着 Claude 做业务逻辑安全测试的底子很扎实，skill 是在这个底子上叠了一层真实案例数据。

触发范围扩展

之前的 description 只列了显式安全关键词。实际使用中发现，做黑盒测试的人经常不会说”安全审计”，他们说的是”帮我测测这个接口”、”这个参数能不能改”、”怎么绕过这个限制”。

扩展了三层触发：

显式关键词——渗透测试、安全审计、IDOR、SRC 这些，原来就有。

隐含黑盒场景——”帮我测测接口”、”看看有没有问题”、”find bugs”、”test this endpoint”。用户在描述安全测试但没用安全术语。

工具和手法词——Burp Suite、抓包、重放、爆破、薅羊毛、刷单、fuzz、enumerate。提到这些工具或手法，基本就是在做安全相关的事。

TODO: 还没跑触发率的量化评测（skill-creator 有个 run_loop.py 可以做这个），后面有空再补。

数据年代的问题

WooYun 数据是 2010-2016 的。OAuth 2.0、GraphQL、Serverless、K8s 等前沿的技术，这些当时要么不存在要么还没流行。所以 skill 在现代技术栈的覆盖上确实有短板。

但业务逻辑漏洞有个特点：攻击模式比技术栈更稳定。”修改金额参数看服务端是否校验”这个测试，2012 年管用，2026 年还是管用。支付绕过、越权遍历、状态机跳转这些模式，跟用什么框架关系不大。

所以我在 README 里加了一段说明，不藏着掖着：数据老，部分场景效果有限，但思维模式和攻击分类在技术迭代中保持稳定。

仓库地址

github.com/tanweai/wooyun-legacy

安装：claude plugin add github:tanweai/wooyun-legacy

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：xsser的博客《WooYun Legacy skill 更新了》