文章总结: 本文指出AISOC平台的核心瓶颈在于数据就绪度而非AI算法本身。作者强调数据质量是AI效能的倍增基础,当前SOC3.0架构因数据引力、建模缺失和治理困局无法支撑智能体需求。文章分析了语义缺失、格式耗散、冗余耗散三种典型数据故障场景,批判了智能体直连数据源方案的局限性,提出基于数据编织的新一代数据平台架构,主张从物理集中转向逻辑统一,通过元数据驱动、智能管道和数据虚拟化实现入库即就绪,为自主化安全运营奠定基础。 综合评分: 85 文章分类: 安全运营,AI安全,数据安全,安全建设,解决方案
数据就绪:AI SOC平台隐秘的死穴
原创
Benny Ye Benny Ye
专注安管平台
2026年2月6日 18:08 北京
毫无疑问,我们已经进入了全新的AI SOC时代,这里的AI特指Agentic AI以及其所代表智能体(AI Agents)。智能体正迅速蔓延至网络安全的各种产品中,“几乎每个安全产品都值得用智能体去重构一次”。
回归AI SOC的技术本质
笔者丝毫不怀疑AI对SOC带来的巨大革新,并对AI应用于SOC的未来充满信心,亦就此写过许多文章。但AI SOC平台终究还是SOC平台,作为支撑安全运营的平台,其技术本质并未改变,就是数据驱动。因此,当我们讨论AI SOC平台的时候,不要把所有目光都聚焦到AI上,而更应该关注数据,关注数据就绪度(Data Readiness),数据和数据平台才是AI SOC平台成功的关键,是AI SOC隐秘的“死穴”。
对SOC而言,如果说AI是SOC能效的倍增器(“0 / 00 / 000”,十倍/百倍/千倍),那么数据和数据平台就是决定SOC成败的那个“1”。
而从AI(尤其是智能体)视角来看,数据问题将成为AI扩展的最大瓶颈,数据不再只是AI的输入,而是企业智能的基石。在智能体时代,问题已不再是“是否拥有数据”,而是:现有的数据架构、治理方式和组织能力,是否足以支撑智能体的实时决策、自主行动与持续智能(参见《IDC FutureScape:全球数据与分析2026年预测》)。
在《IDC FutureScape:全球 Agentic AI 2026 年预测——中国启示》(2026年1月)中,IDC 系统地刻画了未来五年中国企业在智能体发展过程中将面临的十个关键转折点。 报告第一个预测就是针对数据就绪度的。
“到2027年,如果企业没有优先构建高质量的AI就绪数据,在扩展AI解决方案时将面临幻觉频发、错误率高的问题,导致生产力下降15%。”
——IDC FutureScape:全球 Agentic AI 2026 年预测——中国启示
业内知名SOC专家Anton Chuvakin表示,判断SOC是否AI就绪的五个支柱中,第一个就是数据,包括数据的可用性(譬如上下文是否充分)、可访问性(是否可以机读,譬如API;是否AI友好,譬如支持MCP等)、可靠性,以及数据质量,等。
笔者在去年的文章《仅靠AI不足以重新定义安全运营平台》中,就明确指出“GenAI本身就是建立在数据之上的,没有好的数据,GenAI也难以奏效”。
为什么数据是AI SOC平台的死穴
“巧妇难为无米之炊”,AI 的推理能力高度依赖于“语义事实”。再强大的AI,如果面对残缺的、甚至是错误的数据,只会诱发智能体产生严重的“幻觉”,导致AI在错误数据上“加速跑”,让运营陷入“一本正经的胡说八道”中。
正如IDC《全球 Agentic AI 2026 年预测》报告所述:“数据质量不再只是IT部门的KPI,而是企业的生存红线。如果投喂给智能体的数据是脏的、乱的、没有经过治理的,那么企业得到的将不是效率提升,而是需要耗费更多人力去修正错误的负生产力”。
因此,“数据就绪度”(Data Readniess)是AI SOC平台落地最隐秘的“死穴”。数据不仅是燃料,更是约束 AI 行为的边界。
数据不就绪的典型智能体“翻车现场”
下面列举几个典型场景,感受一下数据不就绪造成的危害。
典型场景1:语义缺失
在智能体进行告警研判的时候,由于缺乏实时富化的资产权重和威胁情报上下文,仅凭告警自身的信息,无法快速准确判断攻击者意图和攻击危害,导致研判失准。有的智能体虽然可以通过工具或者技能(skills)调用资产和情报数据库进行碰撞比对,但性能难以保证,且耗费大量Token。
根因分析:数据质量低,缺少富化,缺乏上下文。
典型场景2:格式耗散
同种异构数据格式不一(如不同厂家的入侵告警描述各异),迫使智能体耗费海量Token进行格式对齐,耗散了宝贵的推理算力,增加了运营成本。
根因分析:数据质量低,数据格式不统一,缺乏统一语义。
典型场景3:冗余耗散
将存在大量冗余、且可能明显属于误报的告警推给智能体去研判,导致其在重复的噪音中反复研判,造成算力与 Token 的巨大浪费,虚高运营成本。
根因分析:数据质量低,数据冗余。
旧架构的倒塌:为何它无法支撑“数据就绪”?
通过前面的分析,我们了解到了数据就绪之于智能体发挥效用的重要性。但现在的SOC平台数据架构能担当数据就绪的重任吗?
当前大部分基于大数据的SOC平台架构都被笔者归入SOC3.0架构(参见文章《迈向AI赋能的SOC4.0时代》2.4小节)。这些架构的数据平台底座都是为“存储与检索”设计的,而非为“智能体推理”设计,无法支撑未来面向AI的数据就绪。
- 数据引力与时延:数据引力(Data Gravity)引发数据分散,而SOC3.0数据架构强制进行数据的物理集中,大幅提升了数据移动和存储的成本,也可能导致分析时效性变差。
- 建模能力缺失:缺乏安全数据统一建模和灵活调整模型的能力,无法根据 AI 运营需求动态定义安全实体逻辑。
- 质量治理困局:缺少有效的流式清洗管道和实时质量度量,导致“数据沼泽”污染AI的推理空间。
新架构尝试:“智能体直连”是解药吗?
既然存在数据引力,数据集中存在诸多弊端,数据平台需要深度数据治理,那么,可否去掉数据平台?
最近,有不少人提出了“智能体直连数据源”的解决方案:彻底消灭旧的数据平台,用一种纯分布式的、智能编排的机制将分散的数据源连接起来。他们表示,未来的AI SOC平台将是一个纯粹的多智能体系统。
尤其是随着专项检测能力(譬如EDR、NDR等)不断增强,且其自身能够存储上下文数据和告警,自然容易让人产生这个遐想。而这种故事,其实在Agentic AI出现之前就发生过。笔者作为国内最早的一批SOAR(安全编排自动化响应)从业者,早在2020年就参与过当时兴起的“安全能力中台”、“安全能力原子化”的工作。在那个时候,我们也曾想象过通过编排技术和剧本将分散的安全能力(包括数据查询/比对)协同起来。
在笔者看来,“智能体直连”方案过于理想化,尽管有很多安全运营场景可以这么做,但最终还是需要一个数据平台。
必须指出的是,即便是“智能体直连”方案也是建立在数据基础之上的,至少与数据驱动的安全运营是吻合的。分歧在于是否需要一个专门的数据平台,以及这个数据平台长什么样(肯定不是现在这样)。
“智能体直连”忽视了数据就绪这个命门,无法消除数据平台的必要性。
- 连接不等于就绪:直连获得的原始数据缺乏标准化,智能体必须充当低效的“翻译官”,耗费大量Token去理解原始数据。
- 性能与信噪比:若无数据平台在前置环节进行“去重降噪”,智能体将直接暴露在高EPS的冗余洪流中 。不仅算力成本不可接受,智能体分秒级的推理速度也根本无法支撑实时对抗。
- 数据集中有时更高效:数据是否集中并不绝对,关键是看数据就绪,“该搬还得搬”。经典的例子就是多源数据的实时关联分析,这时集中分析所需数据是性价比最高的选择。再比如,如果让智能体直接去多个数据源中获取原始资产信息,然后自己进行复杂的合并去重与纳管,而不借助数据平台,几乎是不可能的。
当然,在某些场景下,直连方案也有其合理性。譬如针对数量较低的告警和事件进行深度调查,或者进行对时效性不高的威胁猎捕的时候,智能体可以采用直连方式,去相关的检测系统上调取相关的上下文信息,进行推理决策。例如,在事件调查阶段,按需直连 EDR 等数据源获取特定瞬时的端点运行信息(Telemetry)是极具性价比的。因此,需要一种全新的数据平台架构思维去兼容这种直连方案。
【注释:需要厘清的是,很多时候,国外不少人所说的“智能体直连”AI SOC是一个基于数据平台之上的产物(更接近 AI SOAR),而非去掉数据平台。这时候的AI SOC更应该称作AI SOC Agents(参见Gartner定义)。因为这里的AI SOC并不是完整意义上的SOC平台。】
我们需要从安全运营的业务视角去判断什么数据需要集中,什么数据不需要集中。
我们不能用 AI 的“可能性”去对抗数据处理的“确定性”。那些认为不需要数据平台、仅靠智能体就能闭环的观点,本质上是把数据治理的重担,从廉价高效的代码层过度转移到了昂贵缓慢的AI推理层。我们需要做好平衡。
AI SOC平台的命门在于:只有在“逻辑统一、语义就绪”的数据编织架构之上,智能体才能从繁琐的数据搬砖中解脱出来,成为真正的决策指挥官。
破局之道:基于“数据编织”构建新一代数据平台
新一代数据平台的核心思路是从数据的“物理集中”转向“逻辑统一”,从数据的“硬连接”变为“软编织”。
- 元数据驱动:作为神经中枢,统一数据模型与治理规则。
- 智能数据管道:在数据流动中实时完成标准化、富化、关联分析,实现“入库即就绪”。
- 数据虚拟化:支持按需直连分散的数据源,无需搬迁即可实现逻辑融合。
如果说旧SOC平台数据架构是构建一个传统重量级数据中台的话,那么基于安全数据编织的SOC平台数据架构则旨在建立一个轻量级的数据中台。
| | | — | | 笔者在《迈向AI赋能的SOC4.0时代》(5.2小节)一文中对基于“数据编织”的新一代数据平台进行了详细描述。而在《自主化安全运营平台技术解析与实践》一文中也介绍了笔者所在创业公司取得的实际成果。 |
总结
AI SOC的“死穴”在于数据,AI SOC的成功钥匙不在AI算法,而在数据平台的重构。做好数据就绪,构建逻辑统一、按需流转的新一代数据平台底座,是实现自主化安全运营的唯一路径。
最后,引用《IDC FutureScape:全球数据与分析2026年预测——中国启示》报告中的话结束本文。
| | | — | | 智能体的成功,不取决于模型能力,而取决于数据是否“随时可用、始终可信、持续可控”,只有完成数据架构、治理和访问方式的系统性重构,AI才能真正走向生产。 |
【参考】
迈向AI赋能的SOC4.0时代
仅靠AI不足以重新定义安全运营平台
2024年安全运营技术趋势回顾
自主化安全运营平台技术解析与实践
近几年崭露头角的网络安全分析公司SACR在撰写大量AI SOC分析报告的同时,也花了很多精力在支撑SOC的数据之上(重点关注数据管道),国内也一直有跟踪报道。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:专注安管平台 Benny Ye Benny Ye《数据就绪:AI SOC平台隐秘的死穴》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。








评论