康考迪亚大学|OCR-APT:基于子图异常检测与大语言模型的审计日志APT攻击事件重构

admin 2026-04-04 05:33:24 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 论文提出OCR-APT系统,通过子图异常检测与LLM结合实现APT攻击故事重建。系统使用OCRGCN模型检测溯源图中的异常节点和子图,再通过分阶段RAG流程让LLM生成包含攻击阶段、关键IOC和行为上下文的可读报告。该方法提升了APT检测的可解释性,但依赖数据质量且实现复杂度较高。 综合评分: 87 文章分类: 威胁情报,恶意软件,安全运营,AI安全,漏洞分析


cover_image

康考迪亚大学 | OCR-APT:基于子图异常检测与大语言模型的审计日志APT攻击事件重构

原创

龙函城 龙函城

安全学术圈

2026年4月2日 18:30 四川

原文标题:OCR-APT: Reconstructing APT Stories from Audit Logs using Subgraph Anomaly Detection and LLMs 原文作者:Ahmed Aly, Essam Mansour, Amr Youssef 发表会议:CCS ’25 笔记作者:龙函城 主编:黄诚@安全学术圈

研究概述

高级持续性威胁(Advanced Persistent Threat, APT)具有长期潜伏和多阶段推进等特点,传统基于单点告警或线性日志的分析方式往往难以完整恢复其攻击过程。在这一背景下,溯源图(Provenance Graph)由于能够将进程、文件、网络流等实体及其交互关系组织为具有因果语义的图结构,逐渐成为APT检测与调查的重要技术路线。相比普通日志表示,溯源图更适合揭示攻击行为之间的依赖关系与传播路径。

不过,现有基于溯源图的APT分析方法仍存在两个突出问题。一方面,许多异常检测方法只能输出节点级、时间窗级或整图级告警,容易出现粒度过粗、上下文不足和误报率较高的问题;另一方面,已有攻击调查系统往往依赖预定义的兴趣点、已知攻击实体或规则线索来启动分析,且输出多为复杂子图、事件序列或低层日志片段,缺乏连贯的攻击叙事能力,分析人员仍需手工梳理攻击从何开始、如何推进以及涉及哪些关键IOC。

针对上述问题,本文提出OCR-APT,试图实现从系统审计日志到APT攻击故事重建的端到端分析。该方法主要由两部分组成:第一部分是基于图神经网络的子图异常检测模块,用于从大规模溯源图中识别与APT相关的异常节点和异常子图;第二部分是基于大语言模型的攻击调查模块,用于将这些异常子图进一步转化为包含APT阶段、关键IOC及行为上下文的人类可读攻击报告。在检测层面,作者提出OCRGCN,将关系图卷积网络(RGCN)与one-class SVM结合,通过结构关系和行为模式建模异常,而不是依赖文件路径、IP地址等脆弱属性;在调查层面,作者设计了分阶段、带验证机制的RAG流程,以减少幻觉并提高报告可信度。

图 1 OCR-APT 系统整体架构

如图1所示,OCR-APT的整体流程从审计日志出发,首先完成溯源图构建、行为特征提取与图编码;随后通过OCRGCN识别异常节点,并围绕这些节点构造异常子图;最后再将异常子图输入LLM-based attack investigator,生成带有APT阶段、关键IOC和上下文解释的人类可读攻击报告。该框架体现了本文的核心思想,即将APT分析划分为子图异常检测和攻击故事重建两个阶段,从而实现从低层系统遥测到高层攻击叙事的映射。

贡献分析

  • 贡献点1 :提出面向APT检测的子图级异常检测模型OCRGCN

    论文提出了OCRGCN,将RGCN与one-class SVM相结合,用于在溯源图中识别异常节点及APT相关异常子图。OCRGCN 强调基于结构关系和行为模式进行建模,从而降低伪相关问题对检测结果的影响,提升对未知APT行为的鲁棒性。

  • 贡献点2 :提出基于LLM的APT攻击调查与故事重建方法

    论文进一步引入了一个LLM-driven attack investigator,用于从检测得到的异常子图中重建攻击过程,并生成简洁、可读的攻击报告。该部分的重点是将异常子图组织为带有APT阶段、关键IOC和行为上下文的攻击叙事,使系统输出更贴近安全分析人员的实际调查需求。

  • 贡献点3 :设计了分阶段且带验证机制的RAG调查流程

    论文并没有直接让大语言模型一步完成完整攻击报告生成,而是将攻击调查过程拆分为IOC提取、IOC验证、子图摘要、综合报告生成和上下文增强等多个子任务,并在中间环节加入自动验证机制,过滤掉并不存在于原始子图中的IOC,从而减少幻觉问题并提升最终报告的可信度。

  • 贡献点4 :构建了检测与调查一体化的完整APT分析系统 论文最终将子图异常检测与LLM攻击调查整合为一个完整系统OCR-APT,使其能够从系统审计日志出发,依次完成溯源图构建、异常节点识别、异常子图构造、告警排序以及攻击报告生成。

代码分析

代码链接

  • https://github.com/CoDS-GCS/OCR-APT
  1. 使用类库分析

    该项目整体采用Python与Bash作为主要实现方式,系统一方面通过GraphDB和SPARQL完成审计日志到溯源图的存储与查询,另一方面结合PyTorch Geometric风格的图表示学习流程完成异常节点与异常子图检测;同时,还引入LLM与向量检索相关组件,用于生成攻击调查报告。

  2. 代码实现难度与工作量评估

    从实现角度来看,该项目难度属于中等偏上。它的难点不在单一算法本身,而在于需要把多个环节稳定串联起来,包括原始审计日志转换、RDF溯源图构建、图编码、one-class GNN训练、异常节点识别、异常子图构造以及 LLM 调查报告生成。

  3. 代码关键实现功能

    (1)审计日志到溯源图转换模块。该模块主要负责将原始CSV格式的审计日志转换为RDF表示,并导入GraphDB,为后续图查询和图学习建模提供统一的数据基础。

    (2)图编码与特征提取模块。该模块用于将溯源图进一步编码为PyG可处理的数据结构,并提取后续GNN模型所需的节点与关系信息,为异常检测做准备。

    (3)基于GNN表示学习与one-class SVM的异常检测模块。该模块对应OCRGCN的核心实现,主要先利用RGCN学习溯源图中节点的结构与行为表示,再结合one-class SVM学习正常节点分布,并在测试阶段识别异常节点。它是整个系统完成APT异常检测的核心部分。

    (4)异常子图构造模块。该模块根据检测出的异常节点继续构造异常子图,并筛选出更具有调查价值的可疑子图,从而避免只输出孤立异常点。

    (5)LLM攻击调查与报告生成模块。该模块利用大语言模型对异常子图进行进一步分析,并生成简洁、可读的攻击调查报告,是论文中攻击故事重建能力的关键实现部分。

论文点评

总体来看,这篇论文是一项较有价值的APT检测研究。它的亮点不只是提升异常检测能力,更在于进一步关注APT分析中的实际需求,即不仅要发现异常,还要尽可能讲清楚异常背后的攻击过程。为此,作者将子图异常检测与LLM攻击调查结合起来,使系统能够从审计日志出发,进一步生成带有APT阶段、关键IOC和行为上下文的攻击报告,这一点比仅输出异常节点或异常子图更贴近真实分析场景。

从方法设计上看,论文整体思路比较清晰。前半部分利用溯源图和OCRGCN识别异常节点与异常子图,后半部分再通过LLM完成攻击故事重建,这种先检测、后调查的设计较符合APT分析流程。尤其是作者没有直接让大模型一步生成完整结论,而是采用分阶段、带验证机制的RAG流程来减少幻觉,这使方法在可解释性和可信度上更进一步。

不过,这篇论文也存在一定局限。例如,系统整体依赖审计日志和溯源图质量,若底层数据不完整,检测和重建效果都会受到影响;同时,方法涉及图数据库、图学习和LLM生成多个环节,整体实现链路较长,部署与复现成本相对较高。总体而言,本文的主要价值在于它展示了APT检测系统如何从“发现异常”进一步走向“解释异常”,对APT检测与攻击调查结合方向具有较强参考意义。

论文文献

Büchel, Marvin, et al. “{SoK}: Automated {TTP} Extraction from {CTI} Reports–Are We There Yet?.” 34th USENIX security symposium (USENIX Security 25). 2025.

安全学术圈招募队友-ing 有兴趣加入学术圈的请联系 secdr#qq.com



免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:安全学术圈 龙函城 龙函城《康考迪亚大学 | OCR-APT:基于子图异常检测与大语言模型的审计日志APT攻击事件重构》

评论:0   参与:  0