2026-05-31 04:28:35 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： SkillEvaluator是一个用于评估和提升其他Skill能力的工具，提供基准测试、红队测试和自主改进循环。该工具支持5种Skill类别权重配置，内置SQL注入等安全测试，通过Karpathy循环实现自主改进（实测5次迭代提升16.3%），具备能力追踪、并行评估和ClawHub发布功能。文档包含完整的安装指南、19项单元测试（100%通过）以及Level1-3分级标准。 综合评分： 82 文章分类： 安全工具,安全评估,红队,安全开发,漏洞分析

cover_image

Skill 评估与提升专家 | 评估和提升其他 Skill 的能力、提供基准测试、红队测试和自主改进循环

lanyasheng lanyasheng

夜组安全

2026年5月25日 07:30 青海

在小说阅读器读本章

去阅读

免责声明

由于传播、利用本公众号夜组安全所提供的信息而造成的任何直接或者间接的后果及损失，均由使用者本人负责，公众号夜组安全及作者不为此承担任何责任，一旦造成后果请自行承担！如有侵权烦请告知，我们会立即删除并致歉。谢谢！所有工具安全性自测！！！VX：NightCTI

朋友们现在只对常读和星标的公众号才展示大图推送，建议大家把夜组安全“设为星标”，否则可能就看不到了啦！

工具介绍

Skill Evaluator — Skill 评估与提升专家评估和提升其他 Skill 的能力，提供基准测试、红队测试和自主改进循环。

🚀 快速开始

安装

# 克隆仓库
git&nbsp;clone&nbsp;https://github.com/lanyasheng/skill-evaluator.git
cd&nbsp;skill-evaluator

# 创建虚拟环境
python3 -m venv .venv
source&nbsp;.venv/bin/activate

# 安装依赖
pip install -r requirements.txt

基础评估

# 评估单个 Skill
python scripts/evaluate.py --skill-path /path/to/skill --output reports/

# 评估并生成详细报告
python scripts/evaluate.py --skill-path /path/to/skill --output reports/ --verbose

# 评估并导出 JSON 格式
python scripts/evaluate.py --skill-path /path/to/skill --output reports/ --format json

红队测试

# 运行核心测试
python scripts/red_team.py --skill-path /path/to/skill --output reports/

# 运行所有测试（包括 SQL 注入、提示词注入等）
python scripts/red_team.py --skill-path /path/to/skill --output reports/ --all-tests

自主改进（Karpathy Loop）

# 自主改进循环
python scripts/self_improve.py --skill-path /path/to/skill --metric accuracy --max-iterations 100

# 早期停止（10 次无改进自动停止）
python scripts/self_improve.py --skill-path /path/to/skill --metric accuracy --early-stop 10

能力追踪

# 追踪 Skill 能力演进
python scripts/track_progress.py --skill-path /path/to/skill --output reports/

# 生成可视化图表（需要 matplotlib）
python scripts/track_progress.py --skill-path /path/to/skill --output reports/ --plot

基准对比

# 列出所有基准测试用例
python scripts/benchmark_db.py --action list

# 与基准对比
python scripts/benchmark_db.py --action compare --skill-path /path/to/skill --category tool-type

# 获取排行榜
python scripts/benchmark_db.py --action leaderboard --category tool-type

并行评估

# 多 Skill 并行评估
python scripts/parallel_eval.py --skill-paths /path/to/skill1 /path/to/skill2 --max-workers 10

# 生成排行榜报告
python scripts/parallel_eval.py --skill-paths /path/to/skill1 /path/to/skill2 --output reports/

发布到 ClawHub

# 验证 Skill（不发布）
python scripts/publish_to_clawhub.py --skill-path /path/to/skill --level Level2

# 执行发布
python scripts/publish_to_clawhub.py --skill-path /path/to/skill --level Level2 --publish

📊 核心功能

1. 按类别调整权重

支持 5 种 Skill 类别，每种类别有独立的权重配置：

| 类别 | 准确性 | 可靠性 | 效率 | 成本 | 覆盖率 | 安全性 | | — | — | — | — | — | — | — | | 工具型 | 35% | 20% | 25% | 15% | 5% | – | | 流程型 | 25% | 30% | 20% | 15% | 10% | – | | 分析型 | 40% | 20% | 20% | 15% | 5% | – | | 创作型 | 30% | 20% | 20% | 10% | 10% | – | | 评估型 | 45% | 20% | 15% | 10% | 10% | 10% |

2. 红队测试

内置 5 种安全测试：

✅ SQL 注入测试
✅ 提示词注入测试
✅ 资源限制测试
✅ XSS 攻击测试
✅ 路径遍历攻击测试

3. 自主改进循环（Karpathy Loop）

借鉴 Karpathy autoresearch 的核心设计：

评估 → 小改动 → 再评估 → 保留/回滚 → 重复

实测效果：5 次迭代改进 16.3%（75.55% → 87.84%）

4. 能力演进追踪

加载评估历史
计算趋势（improving/stable/declining）
生成 Markdown 报告
可视化图表（需 matplotlib）

5. 基准数据库

15 个默认基准测试用例
5 个类别全覆盖
支持排行榜功能

6. 多 Agent 并行评估

最大支持 10 并发
实测加速比 3.3x
自动生成排行榜报告

🏆 测试验证

单元测试

✅ 19/19 通过（100%）
执行时间：0.04s
覆盖模块：evaluate.py 核心功能

红队测试

✅ 3/3 通过（100%）
测试类型：SQL 注入、提示词注入、资源限制

基准数据库

✅ 15/15 基准用例加载成功
5 个类别全覆盖

自主改进循环

✅ **改进幅度 16.3%**（75.55% → 87.84%）
5 次迭代，2 次有效改进

测试覆盖率

✅ 整体覆盖率 92%
7 个核心模块全部覆盖

详见：TESTING_REPORT.md

🎯 Skill 能力分级

工具获取

点击关注下方名片进入公众号

回复关键字【260525】获取下载链接

往期精彩

[一个面向安全团队、渗透测试、资产侦察、威胁追踪和红队编排的 AI CLI

2026-05-22

](https://mp.weixin.qq.com/s?_biz=Mzk0ODM0NDIxNQ==&mid=2247496888&idx=1&sn=e6b250cdeb0076d7dc5851402a02bbc3&scene=21#wechatredirect)[AI代码审查助手 | 支持30+语言，自动发现Bug/安全漏洞/性能问题

2026-05-21

](https://mp.weixin.qq.com/s?_biz=Mzk0ODM0NDIxNQ==&mid=2247496862&idx=1&sn=0aa9360f536a44cad0353946bc3e2278&scene=21#wechatredirect)[网络安全全流程Skills — 39大模块，195个安全Skills，覆盖完整攻击面与防御面

2026-05-19

](https://mp.weixin.qq.com/s?_biz=Mzk0ODM0NDIxNQ==&mid=2247496857&idx=1&sn=d6a3d84dd7b52cb2c8f1ec797f5fac85&scene=21#wechatredirect)[Linux 本地提权工具 | 支持多个提权漏洞

2026-05-18

](https://mp.weixin.qq.com/s?_biz=Mzk0ODM0NDIxNQ==&mid=2247496852&idx=1&sn=c41f8e2df45a5f1e809b5a121501bc66&scene=21#wechatredirect)[Web 代码审计技能skills | PHP / Java / .NET / Node.js · 50+ 审计文件 · 动态调试 · 漏洞链挖掘

2026-05-15

](https://mp.weixin.qq.com/s?_biz=Mzk0ODM0NDIxNQ==&mid=2247496844&idx=1&sn=b4f066c9ccbd761abc8b0c60303f3454&scene=21#wechatredirect)

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：夜组安全 lanyasheng lanyasheng《Skill 评估与提升专家 | 评估和提升其他 Skill 的能力、提供基准测试、红队测试和自主改进循环》