2026-03-03 04:46:47 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 文档介绍了一项CTF人机协作实证研究，发现协作瓶颈在于人类提问质量低下而非AI能力不足。实验中自主AIAgent排名第二，击败绝大多数人类。研究揭示了兔子洞和老虎机效应等低效交互模式，建议安全从业者提升提问能力以充分发挥AI潜力。 综合评分： 85 文章分类： AI安全,CTF,安全意识,实战经验

cover_image

CTF比赛中人与AI的协作研究,AI很强，如何用好是关键

原创

孙志敏孙志敏

AI与安全

2026年2月26日 19:49 北京

学术界对AI参加CTF的研究，都是在测”AI单独解题能力”——把AI孤立出来，看它能不能自己拿下一道题。这类评测积累了很多，也挺有价值。

但现实世界根本不是这样运作的。

随着AI工具在安全行业的普及，真实场景是人类安全工程师在工作中越来越多地借助AI来辅助分析，不是让AI完全接管，而是协作。CTF本身也越来越多地出现了人机混合使用的情况。

于是就有了三个没人回答过的问题：

人类真正上手用了AI之后，对它的信任和期待会怎么变？
人机协作的过程中，到底在哪个环节出问题、在哪个环节产生价值？
“人+AI协作” 和 “AI完全自主” 放在同一个赛场，谁赢？

基于以上问题，今年2月，来自威廉与玛丽学院、IBM研究院等机构的研究团队，发表了一篇极具价值的论文——《理解人机协作在网络安全竞赛中的表现》（Understanding Human-AI Collaboration in Cybersecurity Competitions，arXiv:2602.20446）。

他们做了目前已知的第一项线下真实CTF环境中的人机协作实证研究。

实验设计：一场有”卧底”的真实比赛

研究团队在一场线下高校CTF赛事中部署了整个实验。这场比赛共有95名参赛者，难度偏高——比普通高校CTF包含更多专家级题目。

研究团队招募了其中41名参赛者加入研究，为他们专门构建了一套叫做 CTFriend 的AI助手系统。CTFriend接入了Claude系列模型（Sonnet 4.5、Opus 4.1、Haiku 3.5），参赛者可以在比赛过程中随时向其提问、寻求解题思路，但最终的Flag提交权始终在人类手中。

研究团队全程记录了人机交互日志，最终收集到38名参赛者的2,299条对话消息，分布在168份聊天记录中。

与此同时，研究人员还把四个完全自主的AI Agent（包括Claude Code、NYU CTF Agent、Cybench，以及一个曾在AI专项CTF赛中位列前茅的专有安全助手）投入同样的题目进行独立测评，用于横向比较。

参赛人员情况

题目及人类完成情况

本次赛事包含17个全新设计的挑战，横跨5个CTF类别，涵盖取证、密码学、逆向工程、网络漏洞利用等。挑战分为三个难度等级：简单、中等和困难，分别对应300分、500分和1000分，总分上限为7700分。表总结了各难度等级的得分分布。这是一场大学级别的竞赛：多数挑战难度与 CSAW 级任务相当（略高），其中1-2个挑战接近picoCTF级别，2-3个挑战接近 DEFCON CTF级别。所有挑战均由安全公司支持，专门为本次赛事量身打造。且此前未被发布，从而降低了现有文献报道的污染风险。

AI完成情况及时间、费用

人类与AI的对比表现

左右是AI,右边是人类团队，时间差异非常明显，AI速度要快得多，得分也很高。

核心发现：AI不是瓶颈，人类才是

发现一：随着比赛推进，人类越来越”懒得自己想”

在比赛初期，大多数参赛者只是把AI当搜索引擎用——问些基础知识、验证自己的想法。但随着时间推移、压力增大，团队开始把越来越复杂的子任务整体交给AI处理，给它更大的自主空间。

这种行为转变非常自然，甚至有点无奈——比赛时间有限，AI给答案快，人就慢慢退到了”验证者”的角色。

发现二：人机协作的最大障碍，不是AI不够聪明，而是人类不会提问

这是全文最让人反思的结论。

研究发现，影响CTF解题率的主要瓶颈，不是模型的推理能力，而是人类的提问质量——具体来说，就是两点：提示词不够有效（ineffective prompting）和上下文信息不完整（poor context specification）。

很多参赛者习惯性地把题目截图扔进去，或者用一句话描述问题，却没有提供关键的背景信息、工具环境、已有尝试记录……结果AI”看不懂”，给出泛泛的回答，解题效率大打折扣。

人机协作失败的核心，往往不是AI有多差，而是人类不知道怎么让AI发挥出水平。

发现三：自主AI Agent击败了绝大多数人类参赛队——排名第二

这是最具冲击力的数据点。

在将四个自主AI Agent与人类队伍同台比较后，研究发现：自主Agent不需要依赖人类的提示词，可以自主规划工具调用和解题思路，从而完全绕过了”人类提问质量”这个瓶颈——最终，自主Agent在整场比赛中排名全场第二。

换句话说，不借助任何人类协作，AI自己打出了接近冠军的成绩。

两种典型的错误场景

文中提到两种场景，很有意思。

兔子洞现象（Prompting Rabbit-Holes）：

核心定义

在 CTF（夺旗赛）场景下，当用户（尤其是缺乏领域知识的用户）在初始阶段未能提供充足的上下文时，AI 可能会给出一个无效或错误的解决方案。用户随后会在这个错误的逻辑分支上不断迭代，试图修补一个从根本上就无法走通的方向，从而被深深“吸入”无效的工作中。

产生的典型特征

盲目执行：用户像“接口”一样机械地将 AI 生成的代码或指令复制到系统中运行，并在极短时间内（中位数仅 23 秒）将系统报错反馈给 AI，而不进行批判性思考。
低效迭代：面对失败，用户不是重新审视思路，而是不断要求 AI “重试”或“微调”当前错误的脚本。
互动质量恶化：一旦陷入兔子洞，AI 的建议往往会变得越来越不可用，进一步降低了突破困境的可能性。

主要诱因

领域知识缺失：缺乏网络安全背景的参与者无法识别 AI 提供的思路是否具有逻辑合理性，因此无法及时“止损” 。
端到端委托：参与者倾向于直接让 AI “解决这个挑战”，而不是将其拆解为可控的小步骤，这使得问题一旦偏离轨道就很难纠正。
环境限制：自主 AI 代理也会遇到类似问题，例如因环境不支持图形界面而反复尝试修复执行错误，而不是转向静态分析。

“老虎机效应”（The Agentic Slot Machine Effect）

被用来描述一种低效、无组织且带有赌博色彩的人机交互模式。

1.核心定义

这是一种变动奖酬强化（Variable-reward Reinforcement）行为。当用户（尤其是缺乏安全领域知识或 AI 使用经验的用户）面对难题时，他们不再尝试分析错误或调整策略，而是反复向 AI 发送相同的原始题目，寄希望于通过模型的随机性（Temperature）抽中一个正确的答案。

2.典型表现特征

重复性委托（Repeated Delegation）：用户会多次对同一个挑战任务执行“全权委托”指令。
缺乏上下文管理：用户通常不会开启新的对话窗口来获取“自洽性”验证，而是在同一个上下文窗口中不断重复提示词。
无指令重试：除了初始的挑战描述外，用户几乎不提供任何额外的引导、反馈或约束条件。
低成功率：这种模式的成功率（约 13%）远低于新手用户的平均成功率（27%），在战略上并无优势。

结语

一场CTF，一个AI助手，41名人类参赛者及四个AI Agent，2,299条对话。

这项研究给出的最深刻结论，其实和技术本身关系不大：

AI已经足够强，强到足以击败大多数人类。真正阻止人机协作发挥潜力的，是人类自己——不是能力，而是提问的方式。

在AI时代，”如何正确地向AI提问”，可能是每个安全从业者最值得练习的基本功。

论文链接

https://arxiv.org/pdf/2602.20446v1

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：AI与安全孙志敏孙志敏《CTF比赛中人与AI的协作研究,AI很强，如何用好是关键》