2026-04-30 04:56:34 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： Google安全团队开发了名为SecGemini的AI代理系统，通过探索图结构解决大模型处理海量日志时的上下文限制和可解释性问题。该系统能在400万条日志中自动进行威胁狩猎和取证分析，在真实入侵数据测试中可识别53%的关键攻击指标，成本低于3美元。AI通过生成可验证的调查节点链与人类分析师协作，目前已集成到TimeSketch平台并支持本地模型部署。 综合评分： 85 文章分类： AI安全,威胁情报,安全工具,安全运营,应急响应

cover_image

Google的AI探秘：如何用SecGemini从400万条日志里抓黑客

幻泉之洲

2026年4月29日 10:52 北京

在小说阅读器读本章

去阅读

Google安全团队展示了他们如何将大语言模型塞进数字取证流程，用一个名为SecGemini的AI代理，在数百万条日志的“数据海洋”里淘洗攻击证据。核心思路是让AI自己设定调查方向、检索日志并生成图表，分析师只需审核结果，成本不到3美元。来源参考：https://www.youtube.com/watch?v=9EA7kz4bGvQ

想象一下，你面前有一台崭新的Windows服务器。什么都没干，只是装好系统，一解析日志——400万条事件记录。这不是演习，这是Google安全工程师Maarten van Dantzig在演讲里给出的数字。

这400万里，310万条来自文件系统的各种动作，40万条注册表事件，35万条用户事件。一台“干净”的服务器尚且如此，加上EDR（终端检测与响应）工具的日志，真正的生产系统数据量会大到什么地步？对于事件响应和取证分析师来说，这就是日常。

用Maarten的话说，这是三重麻烦：信号淹没在噪音里，日志格式千奇百怪，攻击者越来越像普通用户。他们滥用现成工具，让你更难从海量“正常”行为里把他们揪出来。

Google的取证工具箱

面对这堆烂摊子，Google有自己的一套开源工具链。流程分三步：收集、处理、分析。

收集：用LibCloud Forensics从云平台抓取镜像和日志。

处理：用Plaso（一个高级时间线解析器）把原始数据变成结构化事件。

分析：所有东西最终导入一个叫TimeSketch的协作式时间线调查工具。

为了把这三步自动化，他们又搞了个叫dfTimewolf的工具。你告诉它一个云项目名，它就能一条命令搞定从镜像抓取到导入TimeSketch的全流程。

在TimeSketch里，分析师们可以一起工作，给事件打标签、加评论、标可疑。但这解决不了根本问题——数据太多了。哪怕把调查时间窗口缩到6小时，也可能返回近8000个事件。靠人肉筛查，眼睛看瞎了也未必能找到关键线索。

所以，他们给TimeSketch加了个AI摘要功能。它能自动总结当前视图里最多500个事件。这有点用，能让分析师更快地把握概况，找到可疑点再深入。

但Maarten觉得这还不够。这就像大海捞针，只不过现在捞得快了一点。核心难题没变：你还是得自己一页页点开看，AI没有真正的“理解”和“推理”能力。

老方案为什么行不通？

你可能会想，那把日志分批喂给大模型不就行了？比如，用经典的ReAct代理模式，让大模型调用工具去查日志，循环往复。

Google的隐私与安全研究员Alex指出了这个方案的三个致命伤：

上下文窗口不够用：就算用Gemini 1.5 Pro那种超长窗口，面对数亿条日志，迭代几次就塞满了。
模型会“失忆”：实验发现，如果不停地往上下文里堆历史日志和思考过程，大模型会逐渐迷失方向，忘记自己在干嘛。
人类看不懂：输出是几百页混杂着模型思考和原始日志的文本，人类分析师根本没法追踪和验证。

说白了，直接让大模型和原始日志“聊天”，这条路走不通。他们需要一个新的结构，来充当AI的“记忆”和“思考地图”。

SecGemini的核心武器：“探索图”

这个新结构，他们称之为“探索图”。它不是存储原始日志，而是记录调查的状态和逻辑关系。图里的节点有四种：

调查方向：AI给自己设定的目标（比如“查查所有SSH连接”）。
数据获取记录：AI调用工具抓了哪些日志。
书面总结：AI对抓取结果的观察摘要。
调查发现：最终的结论性节点。

节点之间的边代表逻辑蕴含关系，比如“节点B是对节点A的分析回答”。

大模型（这里是Gemini）在整个过程中的角色被极度简化了：它的唯一任务就是更新这张图。分阶段进行：先提出几个宏观的调查方向（节点），然后为这些方向编写工具调用来获取日志（节点），接着总结获取的结果（节点），最后循环往复，直到推理出一些发现（节点）。

在整个过程中，大模型每次只“看到”很少量的日志（就是它刚获取的那部分），以及不断生长的探索图。这让它不会迷失在海量数据里。

更重要的是，结果可解释、可验证。调查结束后，你得到一张图，清晰地展示了AI“为什么这么想”以及“想了什么”。图中的每个数据获取节点都链接着具体的日志行号，你可以随时回溯，查验证据是否真实存在。

从实验走进现实：集成到TimeSketch

一个聪明的后台代理有了，怎么才能让前线分析师用起来，并且信任它？

他们做了用户研究，问分析师们到底想要什么。然后，在TimeSketch里开辟了一个独立的“AI视图”。

在这个视图里，分析师能看到AI代理的实时“思考”过程。左侧是代理自主提出的调查问题或假设（比如“检查异常的网络连接”）。当代理在日志里找到相关证据时，它会直接把具体的事件记录关联到对应的问题下面。

这意味着，分析师一眼就能看到：哦，AI不是瞎说的，它根据这条系统日志、那个文件记录得出了这个怀疑。分析师可以接受或拒绝AI的结论，也可以从AI高亮的事件出发，进行上下文搜索，扩大战果。

最终，一次调查会以一份包含多个问题和结论的报告收尾，这份报告由AI和人类分析师共同“填写”完成。

效果怎么样？用真实入侵数据说话

评估AI代理很难，但他们还是搞了一套方法。秘诀在于：用真实的入侵数据。

他们从GCP上收集了大约100个真实被黑的虚拟机实例。这些案例平均包含400万条日志（最多的有1亿条），涵盖15到50种不同的日志类型。而攻击者的“蛛丝马迹”，平均每个案例只有38条关键日志记录——这是真正的大海捞针。

评估任务是让SecGemini找出所有与攻击相关的“指标”，比如恶意IP、可疑文件名、进程ID等，并按重要性分级。

他们测试了两种模式：

提示模式：给AI一个初始报警（比如“这台机器连了可疑IP”），让它进行时间线重建。
非提示模式（威胁狩猎）：只给日志，不给任何线索，让AI完全自主调查。

结果如何？

提示模式：能找出超过53%的关键攻击指标。精确度（找出来的东西里有多少真是攻击相关的）是12%。这个低精确度部分是因为误报，部分是因为人类专家自己也难免漏标，导致数据标注不全。

非提示模式（威胁狩猎）：表现意外地好，仍能召回47%的关键指标。

关键是成本：处理上百万条日志，总成本低于3美元。而且，在超过90%的案例中，SecGemini至少能发现一个关键指标。对于调查来说，有时找到一个突破口就够了，剩下的分析师可以跟进。

实战挑战：单挑取证CTF

为了举个更直观的例子，他们把SecGemini拉去“打比赛”了——一个业内知名的公开取证挑战（DFIR Madness CTF）。场景是：老板说FBI在暗网发现了公司知识产权，让你去查。

他们只给了AI域控制器的磁盘镜像。在最高难度下（仅提供磁盘镜像，无背景信息），SecGemini完成了两件事：

找到了挑战中60%的关键指标。
正确回答了挑战提出的30个问题中的22个。

更绝的是，在完全不提供任何场景信息的纯威胁狩猎模式下，它依然回答了20个问题，找到50%的关键指标。

总结与启示

Google这个项目的思路很清晰：不让AI直接“吞”日志，而是让它“画地图”。通过探索图把大模型的推理过程结构化、可视化，解决了可解释性这个老大难问题。

效果已经超出预期。一个能自主在百万级日志里狩猎威胁、成本仅几美元的AI代理，对于过度劳累的安全团队来说，无疑是个强力助手。它不是要取代分析师，而是帮他们把最耗时的“筛查”工作自动化，让人聚焦于更高阶的判断和决策。

目前，SecGemini中的日志推理代理处于实验性测试阶段，而TimeSketch中简化版的AI视图已经公开可用。他们甚至支持通过Ollama连接本地大模型来跑，不一定非要Gemini。

安全分析的门槛，或许正在被这种“人机协作”的新模式悄悄改变。下次你被海量告警淹没时，也许第一个想到的帮手不再是咖啡，而是一个能帮你理清头绪的AI搭档。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：幻泉之洲《Google的AI探秘：如何用SecGemini从400万条日志里抓黑客》