2026-04-02 04:43:47 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 研究指出大模型在威胁情报提取任务中可靠性不足，通过对GPT-4o、Gemini1.5Pro等模型在350份真实威胁情报报告中的测试发现，其基础提取能力低下、结果一致性差且存在过度自信问题，微调虽提升F1分数却导致置信度校准崩盘，目前无法替代人工分析。 综合评分： 78 文章分类： 威胁情报,AI安全,漏洞分析,恶意软件,安全运营

cover_image

大模型对威胁情报来说可能并不可靠

原创

Avenger Avenger

威胁棱镜

2026年3月30日 09:01 北京

工作来源

ARES 2025

工作背景

在整个网络安全行业都在疯狂炒作“用大模型取代安全分析师”、“用 AI 自动化提取威胁情报”的当下，很多人声称大模型可以完美解决威胁情报报告信息提取的痛点。利用大模型来提取大量的、非结构化的威胁情报报告（如 Mandiant、卡巴斯基发布的 PDF 报告或博客技术文章）中的关键实体（如攻击者、恶意软件、漏洞）以及它们之间的关系（TTPs）。

演示效果较好的场景，往往使用人为截断的短文本段落，而不是动辄几十页的真实的、完整的报告。根据传统的准确率和召回率等表面指标就能够确定有效性吗？能提出来可能远远不够，还必须确保大模型的一致性（每次回答是否一样）以及置信度（对提取结果的自信是否可靠）。想要将大模型作为工业级组件应用到实际场景中，可靠性验证是必备的一环。

工作准备

研究人员整理了350份真实的、完整的威胁情报报告，这些文件中包含复杂的上下文与难以理解的长文本。选取的86个APT组织均在2008年至2020年期间发起过至少⼀次攻击活动。

准备了当时最顶级的闭源和开源大模型，包括 GPT-4o（OpenAI）、Gemini 1.5 Pro（Google）以及 Mistral Large 2。提示词按照常见规范要求进行设计：

工作设计

将威胁情报报告的提取任务核心为命名实体识别（NER）与关系提取（RE）：

实体：攻击者（Attacker）、恶意软件（Malware）、漏洞（Vulnerability）等；
关系：攻击者使用恶意软件（Uses）、恶意软件利用漏洞（Exploits）等。

根据三种不同的策略使用大模型：

① 零样本学习：直接让大模型进行处理。

② 少样本学习：基于检索增强生成（RAG），在 Prompt 中动态注入 1、3 或 5 个相似的标注示例供模型参考。

③ 模型微调：使用特定数据集对开源模型（如 Mistral 8x7B）进行全参数/LoRA微调。

与传统的方式不同，研究人员引入了两个新的指标来进行效果评价：

一致性：由于大模型存在采样随机性，研究人员使用Fleiss’ Kappa系数来评估模型在多次运行时的稳定性。对于同一份报告、同一个 Prompt，作者让大模型重复提取 5 次。如果它每次提取的 APT 组织名称和 TTP 关系都完全一样，就是高一致性。

置信度：模型输出结果时，研究人员要求其附带一个 0 到 1 之间的自信度评分。然后使用预期校准误差（ECE）与布里尔评分（BS）来对其进行衡量。简而言之，如果模型宣称自己有 90% 的把握，那么它输出的这批结果里，真实准确率是否也达到了 90%？如果它只有 40% 的准确率却给出了 90% 的自信度，这就是严重的“过度自信”。

工作评估

结果是相对悲观的，不宜对其有过高的期待：

基础提取能力低下：在面对真实长篇报告时，所有模型在零样本学习场景下的表现堪称灾难，F1 分数极低。使用RAG的少样本学习确实提升了性能，但当示例增加到 3 到 5 个时，性能提升就遇到了明显的“天花板”，远未达到可以完全替代人工的及格线。

一致性差：大模型是一个十分“善变”的分析人员，实验表明，同一个模型在 5 次独立运行中，提取出的实体和关系出现了巨大的波动。尤其是面对复杂的“关系提取（如 A 利用了 B 漏洞）”时，模型的一致性发生断崖式下跌。相比之下，GPT-4o 比 Gemini 和Mistral 稍微稳定一些，但依然无法满足工业级稳定性要求。

过度自信：所有的LLM 都表现出了极度的自大，它们经常给自己的结果打出90%以上的高置信度，而实际准确率往往只有 0.4 到 0.6。

微调迷思：微调让模型提取的 F1 分数有所上升，但它的置信度校准完全崩盘了。微调后的模型“学乖了”，它学会了迎合标准答案的格式，导致无论它提取的内容对错，它都近乎 100% 盲目自信。

工作思考

如果我们引入大模型是为了节省人力，但由于它经常在没有把握时瞎编乱造，导致安全分析人员必须逐行去验证它提取的信息，那么验证这种低质量输出所花费的时间，可能比分析人员自己去读报告原文还要长。这也是目前很多企业落地 AI 安全产品后，感觉到“越用越累”的根源。

目前来说，大语言模型可能在威胁情报提取方面还没有那么可靠。它们目前的技术成熟度，可能还无法胜任完全自动化的情报生产。业界可能需要停止对大模型在安全领域的盲目崇拜，重新正视大模型对人的辅助分析能力。（PS：这个是在 GPT-4o 的时代做的研究，那是2024年5月发布的模型。两年过去了，大模型也在快速进步，尽信书不如无书）

很多公司宣称“我们用百万级高质量语料微调了专属安全大模型，准确度很高”。但实际上，微调过程中的“过拟合”可能也破坏了基础大模型原本保留的一丝“自我怀疑”能力。微调后的安全大模型变成了一个“傲慢的骗子”，这对依赖大模型置信度阈值来进行告警分级的 SOC 平台来说，是绝对的毒药。

LARGE&nbsp;LANGUAGE&nbsp;MODELS&nbsp;ARE&nbsp;UNRELIABLE&nbsp;FOR&nbsp;CYBER THREAT INTELLIGENCE

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：威胁棱镜 Avenger Avenger《大模型对威胁情报来说可能并不可靠》