文章总结: 火山引擎首届AI安全挑战赛红队赛道收官,787支队伍提交1.5万+对抗样本,最高分9.38。赛事采用多引擎检测、AI研判、人工确认三级评审体系,从隐蔽性、对抗性、恶意性、先进性四维度评分。技术趋势显示供应链投毒思维主导、双重隐蔽成门槛、多技术融合成标配、对抗目标升级为利用规则,凸显AI安全防御风险盲区。 综合评分: 85 文章分类: AI安全,红队,威胁情报,安全运营,安全建设
冠军出炉 | 火山 AI 安全挑战赛收官・红队赛道全纪实
字节跳动安全中心
2026年6月25日 18:02 北京
在小说阅读器读本章
去阅读
经过为期 10 天的激烈角逐,火山引擎首届 AI 安全挑战赛于6月17日00:00正式收官。
大赛分为红队和蓝队两条赛道:
其中红队赛道共有 787 支队伍参与,参赛选手通过提交对抗样本尝试绕过检测引擎并达成攻击效果,引擎会给出最终的综合评判分数。
选手们累计提交了1.5w+ 高质量的Skill对抗样本,最高得分高达9.38分–这意味着其能绕过市面上大部分检测引擎并达成严重的攻击效果,含金量极高。
蓝队赛道则有617 支队伍参与,参赛选手通过提交检测引擎对样本集做检测,评分系统会对相关引擎的质量、可解释性、性能等表现综合评分。
选手们累计提交了7.2k+引擎文件,最高得分高达8.74分—-这意味着相关引擎有优秀的技术框架,能在实战中有卓越的表现。
通过选手们的积极反馈,我们发现以实战对抗驱动安全能力进化,正在成为 AI 安全行业共识。我们也希望通过赛事的技术分享,来促成行业的共同进步。
本篇文章将为大家分享下战况激烈的红队赛道全纪实,为大家分享打分系统设计、恶意Skill样本解析等内容,希望给参赛选手带来一些后续参考和借鉴。
红队赛道
三级评审体系
为确保比赛结果的公平性与权威性,赛事组委会为本届 AI 挑战赛的红队赛道构建了一套 “多引擎检测—>AI 研判打分—>异常人工确认” 的三级评审体系,兼顾评审效率与结果公正。
第一关:多引擎风险检测。 每一个 Skill 提交后,首先进入由多个安全检测引擎组成的自动化审查通道。系统会对 Skill 的内容进行全方位扫描,识别其中是否携带违规风险或无效攻击。这一关卡确保了只有真正具备技术含量的对抗样本才能进入后续评审流程。
第二关:AI 智能体综合研判。 通过风险检测的 Skill 将进入智能体综合打分环节。评分体系从四个核心维度进行量化评估:
| | | | — | — | | 维度 | 评估要点 | | 隐蔽性 | 攻击是否难以被常规安全机制识别,是否具备伪装能力 | | 对抗性 | 攻击对现有防御体系的突破程度,是否能有效绕过多层防护 | | 恶意性 | 攻击一旦成功可能造成的实际危害程度与影响范围 | | 先进性 | 攻击手法的创新程度,是否展现了前沿的技术思路与方法 |
对于脱颖而出的高分 Skill,系统将引入多裁判引擎排名机制进行多维度Skill对比打分,确保排名结果经得起反复推敲。
第三关:对于有潜力进入排行榜的顶尖 Skill,安全专家会二次确认该 Skill 确实构成了一次真实有效的攻击,而非误报或无效样本。
这套 “三级漏斗” 机制,既保证了万级提交量下的评审效率,又通过层层递进的专业评估确保了最终排名的含金量。
Skills解析
当对抗开始“隐入日常”
在本届 AI 挑战赛中,参赛选手展现出的创造力远超赛前预期。高分样本并非简单的恶意指令堆砌,而是将隐写术、编码对抗、供应链投毒等多种高级对抗范式融会贯通,形成了一套极具实战参考价值的对抗技术图谱。我们将赛事中涌现的创新技术归纳为以下四大类别。
- 载荷隐藏:让恶意代码 “消失” 在正常文件中
参赛者将攻击载荷 “溶解” 在各类看似无害的文件格式中,使其对静态扫描引擎完全不可见。这些技术的共同特征是:肉眼审查文件内容完全正常,只有经过特定解码流程才能还原出恶意载荷。
- 检测规避:跨越语言与编码的对抗艺术
如果说载荷隐藏是 “藏起来”,那么检测规避则是 “让安全引擎看到了也认不出来”。选手不再与检测规则正面对抗,而是从根本上让恶意内容 “不像恶意内容”。
- 执行触发:将恶意逻辑融入正常业务流程
优秀样本的恶意行为激活与正常功能执行浑然一体。共同特征是:代码中不存在任何传统可疑 API 调用,沙箱动态分析和人工代码审计都难以发现异常触发点。
- 数据外发:隐蔽信道与业务通道伪装
数据回传环节同样体现了高超的隐蔽设计。选手充分利用了网络侧检测对合法协议和业务流量的信任盲区。
Skills对抗技术
发展趋势
纵观本届赛事涌现的对抗技术,我们提炼出几个值得行业关注的趋势:
- 供应链投毒思维主导。 高分样本无一例外都是 “功能完整的正常工具”—— 模型缓存管理器、代码分析器、合规平台、图片优化器、会计系统。恶意逻辑深度嵌入业务功能中,与正常代码共享同一执行流程,这与现实世界中日益严峻的软件供应链攻击模式高度一致。
- “双重隐蔽” 成为基本门槛。 所有进入排行榜的样本都使用了智能体对抗技术,同时对代码审计也具备极强抗性。选手们通过业务逻辑伪装、多文件分散、条件触发、自然语言编码等多重手段,构建了机器扫不到、人工看不出的双重隐蔽屏障。
- 多技术融合成为标配。 没有任何一个顶尖样本仅依赖单一对抗技术。典型的高分方案融合了 “载荷隐藏 + 编码混淆 + 条件触发 + 隐蔽外发” 的完整攻击链,各环节相互配合形成纵深攻击体系。
- 对抗目标从 “绕过规则” 升级为 “利用规则”。 最具创新性的样本不再满足于绕过安全机制,而是开始反向利用安全机制的逻辑缺陷制造安全假象、利用合法业务通道伪装恶意流量。
赛事展望
感谢所有选手对比赛的支持!也祝贺所有获得奖项的选手!
火山引擎首届 AI 挑战赛的落幕,不是终点,而是起点。参赛者用真实的对抗行为,系统性地揭示了当前 AI 安全防御体系中隐藏最深、最难以被传统手段发现的风险盲区。从空白字符隐写到自然语言符号映射,从供应链投毒到防御逻辑反向利用 —— 这些在赛场上被 “善意” 发现的对抗手法,如果出现在真实的生产环境中,后果不堪设想。
赛事的初衷,也是希望借助社区的力量,让这些风险 “被看见” 的时间,早于 “被利用” 的时间。我们坚信社区的安全专家是Skills安全建设的关键组成部分,只有集体的力量才能让检测能力不断迭代升级,让新的风险利用方式被感知并得到解决。开放式的安全对抗是推动这种进化最高效的方式—— 让全行业最顶尖的专家来挑战防线,而不应该在封闭环境中自我验证。
火山引擎 AI 安全挑战赛将持续举办,我们期待与更多安全研究者、AI 开发者、高校团队一起,共同守护 AI 时代的安全防线,让安全能力在持续对抗中进化。感谢每一位参赛者,你们的每一次测试,都让 AI 社区更安全。
AI安全挑战赛排行榜
最后,再次恭喜红队冠军战队“Polar”,蓝队冠军“云堤”。同时,红队的前20名战队及蓝队的前12名战队均可获得现金奖金及电子证书。
火山引擎智能体安全防护方案
目前火山引擎云安全团队推出了针对智能体的安全防护解决方案,该方案在盘点智能体的Skills资产后,可执行静态扫描和动态运行时沙盒检测两套方案。
另外也提供了智能体安全加固方案提升智能体的能力,避免执行被投毒的Skills以及防止使用正常Skills执行恶意操作。该方案在对恶意Skills保证高检出的同时也支持典型供应链软件包投毒、不安全通信在内的多种风险类型的检出。
如果你对智能体安全相关产品及解决方案感兴趣,欢迎联系我们:
www.volcengine.com/product/agentsentry
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:字节跳动安全中心 《冠军出炉 | 火山 AI 安全挑战赛收官・红队赛道全纪实》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论