文章总结: SkillEvaluator是一个用于评估和提升其他Skill能力的工具,提供基准测试、红队测试和自主改进循环。该工具支持5种Skill类别权重配置,内置SQL注入等安全测试,通过Karpathy循环实现自主改进(实测5次迭代提升16.3%),具备能力追踪、并行评估和ClawHub发布功能。文档包含完整的安装指南、19项单元测试(100%通过)以及Level1-3分级标准。 综合评分: 82 文章分类: 安全工具,安全评估,红队,安全开发,漏洞分析
Skill 评估与提升专家 | 评估和提升其他 Skill 的能力、提供基准测试、红队测试和自主改进循环
lanyasheng lanyasheng
夜组安全
2026年5月25日 07:30 青海
在小说阅读器读本章
去阅读
免责声明
由于传播、利用本公众号夜组安全所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,公众号夜组安全及作者不为此承担任何责任,一旦造成后果请自行承担!如有侵权烦请告知,我们会立即删除并致歉。谢谢!所有工具安全性自测!!!VX:NightCTI
朋友们现在只对常读和星标的公众号才展示大图推送,建议大家把夜组安全“设为星标”,否则可能就看不到了啦!
工具介绍
Skill Evaluator — Skill 评估与提升专家评估和提升其他 Skill 的能力,提供基准测试、红队测试和自主改进循环。
🚀 快速开始
安装
# 克隆仓库
git clone https://github.com/lanyasheng/skill-evaluator.git
cd skill-evaluator
# 创建虚拟环境
python3 -m venv .venv
source .venv/bin/activate
# 安装依赖
pip install -r requirements.txt
基础评估
# 评估单个 Skill
python scripts/evaluate.py --skill-path /path/to/skill --output reports/
# 评估并生成详细报告
python scripts/evaluate.py --skill-path /path/to/skill --output reports/ --verbose
# 评估并导出 JSON 格式
python scripts/evaluate.py --skill-path /path/to/skill --output reports/ --format json
红队测试
# 运行核心测试
python scripts/red_team.py --skill-path /path/to/skill --output reports/
# 运行所有测试(包括 SQL 注入、提示词注入等)
python scripts/red_team.py --skill-path /path/to/skill --output reports/ --all-tests
自主改进(Karpathy Loop)
# 自主改进循环
python scripts/self_improve.py --skill-path /path/to/skill --metric accuracy --max-iterations 100
# 早期停止(10 次无改进自动停止)
python scripts/self_improve.py --skill-path /path/to/skill --metric accuracy --early-stop 10
能力追踪
# 追踪 Skill 能力演进
python scripts/track_progress.py --skill-path /path/to/skill --output reports/
# 生成可视化图表(需要 matplotlib)
python scripts/track_progress.py --skill-path /path/to/skill --output reports/ --plot
基准对比
# 列出所有基准测试用例
python scripts/benchmark_db.py --action list
# 与基准对比
python scripts/benchmark_db.py --action compare --skill-path /path/to/skill --category tool-type
# 获取排行榜
python scripts/benchmark_db.py --action leaderboard --category tool-type
并行评估
# 多 Skill 并行评估
python scripts/parallel_eval.py --skill-paths /path/to/skill1 /path/to/skill2 --max-workers 10
# 生成排行榜报告
python scripts/parallel_eval.py --skill-paths /path/to/skill1 /path/to/skill2 --output reports/
发布到 ClawHub
# 验证 Skill(不发布)
python scripts/publish_to_clawhub.py --skill-path /path/to/skill --level Level2
# 执行发布
python scripts/publish_to_clawhub.py --skill-path /path/to/skill --level Level2 --publish
📊 核心功能
1. 按类别调整权重
支持 5 种 Skill 类别,每种类别有独立的权重配置:
| 类别 | 准确性 | 可靠性 | 效率 | 成本 | 覆盖率 | 安全性 | | — | — | — | — | — | — | — | | 工具型 | 35% | 20% | 25% | 15% | 5% | – | | 流程型 | 25% | 30% | 20% | 15% | 10% | – | | 分析型 | 40% | 20% | 20% | 15% | 5% | – | | 创作型 | 30% | 20% | 20% | 10% | 10% | – | | 评估型 | 45% | 20% | 15% | 10% | 10% | 10% |
2. 红队测试
内置 5 种安全测试:
- ✅ SQL 注入测试
- ✅ 提示词注入测试
- ✅ 资源限制测试
- ✅ XSS 攻击测试
- ✅ 路径遍历攻击测试
3. 自主改进循环(Karpathy Loop)
借鉴 Karpathy autoresearch 的核心设计:
评估 → 小改动 → 再评估 → 保留/回滚 → 重复
实测效果:5 次迭代改进 16.3%(75.55% → 87.84%)
4. 能力演进追踪
- 加载评估历史
- 计算趋势(improving/stable/declining)
- 生成 Markdown 报告
- 可视化图表(需 matplotlib)
5. 基准数据库
- 15 个默认基准测试用例
- 5 个类别全覆盖
- 支持排行榜功能
6. 多 Agent 并行评估
- 最大支持 10 并发
- 实测加速比 3.3x
- 自动生成排行榜报告
🏆 测试验证
单元测试
- ✅ 19/19 通过(100%)
- 执行时间:0.04s
- 覆盖模块:evaluate.py 核心功能
红队测试
- ✅ 3/3 通过(100%)
- 测试类型:SQL 注入、提示词注入、资源限制
基准数据库
- ✅ 15/15 基准用例加载成功
- 5 个类别全覆盖
自主改进循环
- ✅ **改进幅度 16.3%**(75.55% → 87.84%)
- 5 次迭代,2 次有效改进
测试覆盖率
- ✅ 整体覆盖率 92%
- 7 个核心模块全部覆盖
详见:TESTING_REPORT.md
🎯 Skill 能力分级
| 等级 | 名称 | 标准 | 发布策略 | | — | — | — | — | | Level 1 | 基础可用 | ✅ 能完成核心任务 ✅ 有基本错误处理 ⚠️ 测试覆盖率 < 50% | 仅限内部使用 | | Level 2 | 稳定可靠 | ✅ 能完成核心任务 ✅ 有完整的错误处理 ✅ 测试覆盖率 > 80% ✅ 有基准测试 | 可发布到 GitHub/ClawHub | | Level 3 | 生产就绪 | ✅ 能完成核心任务 ✅ 有完整的错误处理 ✅ 测试覆盖率 > 95% ✅ 有红队测试 ✅ 有用户反馈循环 | 优先推荐到 ClawHub 首页 |
工具获取
点击关注下方名片进入公众号
回复关键字【260525】获取下载链接
往期精彩
[一个面向安全团队、渗透测试、资产侦察、威胁追踪和红队编排的 AI CLI
2026-05-22
](https://mp.weixin.qq.com/s?_biz=Mzk0ODM0NDIxNQ==&mid=2247496888&idx=1&sn=e6b250cdeb0076d7dc5851402a02bbc3&scene=21#wechatredirect)[AI代码审查助手 | 支持30+语言,自动发现Bug/安全漏洞/性能问题
2026-05-21
](https://mp.weixin.qq.com/s?_biz=Mzk0ODM0NDIxNQ==&mid=2247496862&idx=1&sn=0aa9360f536a44cad0353946bc3e2278&scene=21#wechatredirect)[网络安全全流程Skills — 39大模块,195个安全Skills,覆盖完整攻击面与防御面
2026-05-19
](https://mp.weixin.qq.com/s?_biz=Mzk0ODM0NDIxNQ==&mid=2247496857&idx=1&sn=d6a3d84dd7b52cb2c8f1ec797f5fac85&scene=21#wechatredirect)[Linux 本地提权工具 | 支持多个提权漏洞
2026-05-18
](https://mp.weixin.qq.com/s?_biz=Mzk0ODM0NDIxNQ==&mid=2247496852&idx=1&sn=c41f8e2df45a5f1e809b5a121501bc66&scene=21#wechatredirect)[Web 代码审计技能skills | PHP / Java / .NET / Node.js · 50+ 审计文件 · 动态调试 · 漏洞链挖掘
2026-05-15
](https://mp.weixin.qq.com/s?_biz=Mzk0ODM0NDIxNQ==&mid=2247496844&idx=1&sn=b4f066c9ccbd761abc8b0c60303f3454&scene=21#wechatredirect)
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:夜组安全 lanyasheng lanyasheng《Skill 评估与提升专家 | 评估和提升其他 Skill 的能力、提供基准测试、红队测试和自主改进循环》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。











评论