CTF比赛中人与AI的协作研究,AI很强,如何用好是关键

admin 2026-03-03 04:46:47 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 文档介绍了一项CTF人机协作实证研究,发现协作瓶颈在于人类提问质量低下而非AI能力不足。实验中自主AIAgent排名第二,击败绝大多数人类。研究揭示了兔子洞和老虎机效应等低效交互模式,建议安全从业者提升提问能力以充分发挥AI潜力。 综合评分: 85 文章分类: AI安全,CTF,安全意识,实战经验


cover_image

CTF比赛中人与AI的协作研究,AI很强,如何用好是关键

原创

孙志敏 孙志敏

AI与安全

2026年2月26日 19:49 北京

学术界对AI参加CTF的研究,都是在测”AI单独解题能力”——把AI孤立出来,看它能不能自己拿下一道题。这类评测积累了很多,也挺有价值。

但现实世界根本不是这样运作的。

随着AI工具在安全行业的普及,真实场景是人类安全工程师在工作中越来越多地借助AI来辅助分析,不是让AI完全接管,而是协作。CTF本身也越来越多地出现了人机混合使用的情况。

于是就有了三个没人回答过的问题:

  1. 人类真正上手用了AI之后,对它的信任和期待会怎么变?
  2. 人机协作的过程中,到底在哪个环节出问题、在哪个环节产生价值?
  3. “人+AI协作” 和 “AI完全自主” 放在同一个赛场,谁赢?

基于以上问题,今年2月,来自威廉与玛丽学院、IBM研究院等机构的研究团队,发表了一篇极具价值的论文——《理解人机协作在网络安全竞赛中的表现》(Understanding Human-AI Collaboration in Cybersecurity Competitions,arXiv:2602.20446)。

他们做了目前已知的第一项线下真实CTF环境中的人机协作实证研究。

01

实验设计:一场有”卧底”的真实比赛

研究团队在一场线下高校CTF赛事中部署了整个实验。这场比赛共有95名参赛者,难度偏高——比普通高校CTF包含更多专家级题目。

研究团队招募了其中41名参赛者加入研究,为他们专门构建了一套叫做 CTFriend 的AI助手系统。CTFriend接入了Claude系列模型(Sonnet 4.5、Opus 4.1、Haiku 3.5),参赛者可以在比赛过程中随时向其提问、寻求解题思路,但最终的Flag提交权始终在人类手中。

研究团队全程记录了人机交互日志,最终收集到38名参赛者的2,299条对话消息,分布在168份聊天记录中。

与此同时,研究人员还把四个完全自主的AI Agent(包括Claude Code、NYU CTF Agent、Cybench,以及一个曾在AI专项CTF赛中位列前茅的专有安全助手)投入同样的题目进行独立测评,用于横向比较。

参赛人员情况

题目及人类完成情况

本次赛事包含17个全新设计的挑战,横跨5个CTF类别,涵盖取证、密码学、逆向工程、网络漏洞利用等。挑战分为三个难度等级:简单、中等和困难,分别对应300分、500分和1000分,总分上限为7700分。表总结了各难度等级的得分分布。这是一场大学级别的竞赛:多数挑战难度与 CSAW 级任务相当(略高),其中1-2个挑战接近picoCTF级别,2-3个挑战接近 DEFCON CTF级别。所有挑战均由安全公司支持,专门为本次赛事量身打造。且此前未被发布,从而降低了现有文献报道的污染风险。

AI完成情况及时间、费用

人类与AI的对比表现

左右是AI,右边是人类团队,时间差异非常明显,AI速度要快得多,得分也很高。

02

核心发现:AI不是瓶颈,人类才是

发现一:随着比赛推进,人类越来越”懒得自己想”

在比赛初期,大多数参赛者只是把AI当搜索引擎用——问些基础知识、验证自己的想法。但随着时间推移、压力增大,团队开始把越来越复杂的子任务整体交给AI处理,给它更大的自主空间。

这种行为转变非常自然,甚至有点无奈——比赛时间有限,AI给答案快,人就慢慢退到了”验证者”的角色。

发现二:人机协作的最大障碍,不是AI不够聪明,而是人类不会提问

这是全文最让人反思的结论。

研究发现,影响CTF解题率的主要瓶颈,不是模型的推理能力,而是人类的提问质量——具体来说,就是两点:提示词不够有效(ineffective prompting)和上下文信息不完整(poor context specification)。

很多参赛者习惯性地把题目截图扔进去,或者用一句话描述问题,却没有提供关键的背景信息、工具环境、已有尝试记录……结果AI”看不懂”,给出泛泛的回答,解题效率大打折扣。

人机协作失败的核心,往往不是AI有多差,而是人类不知道怎么让AI发挥出水平。

发现三:自主AI Agent击败了绝大多数人类参赛队——排名第二

这是最具冲击力的数据点。

在将四个自主AI Agent与人类队伍同台比较后,研究发现:自主Agent不需要依赖人类的提示词,可以自主规划工具调用和解题思路,从而完全绕过了”人类提问质量”这个瓶颈——最终,自主Agent在整场比赛中排名全场第二。

换句话说,不借助任何人类协作,AI自己打出了接近冠军的成绩。

03

两种典型的错误场景

文中提到两种场景,很有意思。

兔子洞现象(Prompting Rabbit-Holes):

  1. 核心定义

在 CTF(夺旗赛)场景下,当用户(尤其是缺乏领域知识的用户)在初始阶段未能提供充足的上下文时,AI 可能会给出一个无效或错误的解决方案。用户随后会在这个错误的逻辑分支上不断迭代,试图修补一个从根本上就无法走通的方向,从而被深深“吸入”无效的工作中。

  1. 产生的典型特征
  • 盲目执行: 用户像“接口”一样机械地将 AI 生成的代码或指令复制到系统中运行,并在极短时间内(中位数仅 23 秒)将系统报错反馈给 AI,而不进行批判性思考 。
  • 低效迭代: 面对失败,用户不是重新审视思路,而是不断要求 AI “重试”或“微调”当前错误的脚本 。
  • 互动质量恶化: 一旦陷入兔子洞,AI 的建议往往会变得越来越不可用,进一步降低了突破困境的可能性 。
  1. 主要诱因
  • 领域知识缺失: 缺乏网络安全背景的参与者无法识别 AI 提供的思路是否具有逻辑合理性,因此无法及时“止损” 。
  • 端到端委托: 参与者倾向于直接让 AI “解决这个挑战”,而不是将其拆解为可控的小步骤,这使得问题一旦偏离轨道就很难纠正 。
  • 环境限制: 自主 AI 代理也会遇到类似问题,例如因环境不支持图形界面而反复尝试修复执行错误,而不是转向静态分析。

“老虎机效应”(The Agentic Slot Machine Effect)

被用来描述一种低效、无组织且带有赌博色彩的人机交互模式 。

1.核心定义

这是一种变动奖酬强化(Variable-reward Reinforcement)行为 。当用户(尤其是缺乏安全领域知识或 AI 使用经验的用户)面对难题时,他们不再尝试分析错误或调整策略,而是反复向 AI 发送相同的原始题目,寄希望于通过模型的随机性(Temperature)抽中一个正确的答案 。

2.典型表现特征

  • 重复性委托(Repeated Delegation): 用户会多次对同一个挑战任务执行“全权委托”指令 。
  • 缺乏上下文管理: 用户通常不会开启新的对话窗口来获取“自洽性”验证,而是在同一个上下文窗口中不断重复提示词 。
  • 无指令重试: 除了初始的挑战描述外,用户几乎不提供任何额外的引导、反馈或约束条件。
  • 低成功率: 这种模式的成功率(约 13%)远低于新手用户的平均成功率(27%),在战略上并无优势 。

04

结语

一场CTF,一个AI助手,41名人类参赛者及四个AI Agent,2,299条对话。

这项研究给出的最深刻结论,其实和技术本身关系不大:

AI已经足够强,强到足以击败大多数人类。真正阻止人机协作发挥潜力的,是人类自己——不是能力,而是提问的方式。

在AI时代,”如何正确地向AI提问”,可能是每个安全从业者最值得练习的基本功。

论文链接

https://arxiv.org/pdf/2602.20446v1


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:AI与安全 孙志敏 孙志敏《CTF比赛中人与AI的协作研究,AI很强,如何用好是关键》

评论:0   参与:  0