文章总结: 研究指出大模型在威胁情报提取任务中可靠性不足,通过对GPT-4o、Gemini1.5Pro等模型在350份真实威胁情报报告中的测试发现,其基础提取能力低下、结果一致性差且存在过度自信问题,微调虽提升F1分数却导致置信度校准崩盘,目前无法替代人工分析。 综合评分: 78 文章分类: 威胁情报,AI安全,漏洞分析,恶意软件,安全运营
大模型对威胁情报来说可能并不可靠
原创
Avenger Avenger
威胁棱镜
2026年3月30日 09:01 北京
工作来源
ARES 2025
工作背景
在整个网络安全行业都在疯狂炒作“用大模型取代安全分析师”、“用 AI 自动化提取威胁情报”的当下,很多人声称大模型可以完美解决威胁情报报告信息提取的痛点。利用大模型来提取大量的、非结构化的威胁情报报告(如 Mandiant、卡巴斯基发布的 PDF 报告或博客技术文章)中的关键实体(如攻击者、恶意软件、漏洞)以及它们之间的关系(TTPs)。
演示效果较好的场景,往往使用人为截断的短文本段落,而不是动辄几十页的真实的、完整的报告。根据传统的准确率和召回率等表面指标就能够确定有效性吗?能提出来可能远远不够,还必须确保大模型的一致性(每次回答是否一样)以及置信度(对提取结果的自信是否可靠)。想要将大模型作为工业级组件应用到实际场景中,可靠性验证是必备的一环。
工作准备
研究人员整理了350份真实的、完整的威胁情报报告,这些文件中包含复杂的上下文与难以理解的长文本。选取的86个APT组织均在2008年至2020年期间发起过至少⼀次攻击活动。
准备了当时最顶级的闭源和开源大模型,包括 GPT-4o(OpenAI)、Gemini 1.5 Pro(Google)以及 Mistral Large 2。提示词按照常见规范要求进行设计:
工作设计
将威胁情报报告的提取任务核心为命名实体识别(NER)与关系提取(RE):
- 实体:攻击者(Attacker)、恶意软件(Malware)、漏洞(Vulnerability)等;
- 关系:攻击者使用恶意软件(Uses)、恶意软件利用漏洞(Exploits)等。
根据三种不同的策略使用大模型:
① 零样本学习:直接让大模型进行处理。
② 少样本学习:基于检索增强生成(RAG),在 Prompt 中动态注入 1、3 或 5 个相似的标注示例供模型参考。
③ 模型微调:使用特定数据集对开源模型(如 Mistral 8x7B)进行全参数/LoRA微调。
与传统的方式不同,研究人员引入了两个新的指标来进行效果评价:
一致性:由于大模型存在采样随机性,研究人员使用Fleiss’ Kappa系数来评估模型在多次运行时的稳定性。对于同一份报告、同一个 Prompt,作者让大模型重复提取 5 次。如果它每次提取的 APT 组织名称和 TTP 关系都完全一样,就是高一致性。
置信度:模型输出结果时,研究人员要求其附带一个 0 到 1 之间的自信度评分。然后使用预期校准误差(ECE)与布里尔评分(BS)来对其进行衡量。简而言之,如果模型宣称自己有 90% 的把握,那么它输出的这批结果里,真实准确率是否也达到了 90%?如果它只有 40% 的准确率却给出了 90% 的自信度,这就是严重的“过度自信”。
工作评估
结果是相对悲观的,不宜对其有过高的期待:
基础提取能力低下:在面对真实长篇报告时,所有模型在零样本学习场景下的表现堪称灾难,F1 分数极低。使用RAG的少样本学习确实提升了性能,但当示例增加到 3 到 5 个时,性能提升就遇到了明显的“天花板”,远未达到可以完全替代人工的及格线。
一致性差:大模型是一个十分“善变”的分析人员,实验表明,同一个模型在 5 次独立运行中,提取出的实体和关系出现了巨大的波动。尤其是面对复杂的“关系提取(如 A 利用了 B 漏洞)”时,模型的一致性发生断崖式下跌。相比之下,GPT-4o 比 Gemini 和Mistral 稍微稳定一些,但依然无法满足工业级稳定性要求。
过度自信:所有的LLM 都表现出了极度的自大,它们经常给自己的结果打出90%以上的高置信度,而实际准确率往往只有 0.4 到 0.6。
微调迷思:微调让模型提取的 F1 分数有所上升,但它的置信度校准完全崩盘了。微调后的模型“学乖了”,它学会了迎合标准答案的格式,导致无论它提取的内容对错,它都近乎 100% 盲目自信。
工作思考
如果我们引入大模型是为了节省人力,但由于它经常在没有把握时瞎编乱造,导致安全分析人员必须逐行去验证它提取的信息,那么验证这种低质量输出所花费的时间,可能比分析人员自己去读报告原文还要长。这也是目前很多企业落地 AI 安全产品后,感觉到“越用越累”的根源。
目前来说,大语言模型可能在威胁情报提取方面还没有那么可靠。它们目前的技术成熟度,可能还无法胜任完全自动化的情报生产。业界可能需要停止对大模型在安全领域的盲目崇拜,重新正视大模型对人的辅助分析能力。(PS:这个是在 GPT-4o 的时代做的研究,那是2024年5月发布的模型。两年过去了,大模型也在快速进步,尽信书不如无书)
很多公司宣称“我们用百万级高质量语料微调了专属安全大模型,准确度很高”。但实际上,微调过程中的“过拟合”可能也破坏了基础大模型原本保留的一丝“自我怀疑”能力。微调后的安全大模型变成了一个“傲慢的骗子”,这对依赖大模型置信度阈值来进行告警分级的 SOC 平台来说,是绝对的毒药。
LARGE LANGUAGE MODELS ARE UNRELIABLE FOR CYBER THREAT INTELLIGENCE
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:威胁棱镜 Avenger Avenger《大模型对威胁情报来说可能并不可靠》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论