为何SIEM成本越来越贵?数据湖又是如何通过“存算分离”降低成本?

admin 2026-01-26 14:53:53 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 传统SIEM因存算耦合导致成本高昂,文档建议采用存算分离的安全数据湖架构。利用对象存储降本、Serverless按需计算及Parquet等技术,数据湖可作为SIEM补充,用于长周期溯源、合规审计及AI训练,从而实现全量数据留存与成本控制的平衡。 综合评分: 86 文章分类: 安全运营,解决方案,安全建设,云安全


cover_image

为何SIEM成本越来越贵?数据湖又是如何通过“存算分离”降低成本?

原创

玄月调查小组 玄月调查小组

玄月调查小组

2026年1月26日 09:36 上海

在企业数字化转型加速与攻击面持续扩大的当下,SIEM系统已然成为企业安全架构的“神经中枢”。从防火墙、数据库到终端(EDR)、身份验证(AD/4A)乃至复杂的云端审计日志,海量数据汇聚于此。

然而,安全团队正面临着一个的成本悖论

为了看清威胁,你需要更多的数据;但更多的数据,意味着 SIEM 账单的指数级爆炸。

随着 IT 架构从走向云端去中心化,传统 SIEM 逐渐变得臃肿且昂贵。本文将深入剖析传统 SIEM 的架构弊端,并探讨如何利用存算分离(Disaggregated Compute and Storage)的安全数据湖架构,实现降本增效。


一、 传统 SIEM 之痛:被捆绑的“算力税”

为什么传统 SIEM 存点日志会这么贵?Red Canary 的首席软件工程师 Brian Davis 指出,核心症结在于其存储与计算紧耦合的架构设计。

1. 昂贵的闲置成本

以开源的 OpenSearch(常作为 SIEM 的底层参考)为例,若要构建一个处理 105TB 数据的集群,通常需要约 12 个高性能节点,配备 432 个 CPU 核心和 3TB 内存。 在 AWS 上运行这样一个集群,月成本约为 24,688 美元:

  • **存储本身的支出仅占 35%**(约 8,640 美元)。
  • **计算资源(CPU/RAM)的成本占到了 65%**。

这意味着,为了维持索引和数据摄取,企业被迫为数据“供养”大量 24/7 全天候运行的 CPU 和内存,即便在绝大部分时间里,这些强大的算力处于闲置状态

2. 扩展的阶梯效应

由于存储和计算是绑定的,当你为了合规需要增加存储容量时,即便不需要更多算力,也不得不增加新的节点,支付额外的“计算税”。

传统的 SIEM 就像一家按年缴费的健身房。无论你去不去,也无论你只用跑步机还是全套器械,你都必须全天候付费。


二、 数据湖的本质:“穿着风衣的三只浣熊”

为了破解这一难题,现代数据湖引入了存算分离架构。这并非全新的黑科技,Brian Davis 形象地将其比喻为“穿着长袍的三只浣熊”——即利用过去十几年间成熟的开源技术(如 Hadoop、Spark 等)进行重新包装,由各司其职的组件“叠罗汉”,对外伪装成一个数据库。

1. 第一只浣熊:从块存储转向对象存储(降本)

传统 SIEM 依赖昂贵的块存储(Block Storage)。数据湖则利用“魔法”将数据迁移至对象存储(如 Amazon S3 或 Azure Blob)。

  • 成本对比:同等 105TB 数据,存储成本可从 $8,640/月 大幅降至 $2,400/月;若使用深度归档存储(Glacier),成本甚至能降至 $100 左右。

2. 第二只浣熊:Serverless 弹性计算(增效)

在存算分离架构中,数据安安静静地躺在对象存储里。只有在进行威胁猎杀或数据分析时,系统才会利用 Serverless 查询引擎(如 AWS Athena 或 Trino)按需调拨海量算力。

  • 优势“不查询,不收费”。查询结束后算力立即释放,彻底消除了闲置浪费。

形象比喻:基于存算分离的数据湖更像是一个按次付费的共享体育场。平时只需要支付极低的场地折旧费(存储);当你需要比赛时,可以瞬间召唤数千名观众(算力),赛后即散。


三、 技术底座:Parquet 与 Iceberg 的魔法

既然把算力抽离了,躺在 S3 里的文件如何像数据库一样被快速检索?这离不开底层格式的优化。

1. 列式存储(Parquet):极致压缩与加速

传统日志通常是 CSV 等行式存储。数据湖则采用 Parquet 等列式存储格式。

  • 高压缩比:利用列数据的重复性(如同一列多次出现相同的日期),Parquet 实现了惊人的压缩率。Red Canary 实测显示,500 万行数据在 CSV 格式下为 290MB,转化为 Parquet 后仅为 8.8MB
  • 查询加速:列式结构使得查询特定字段(如搜索特定 IP 或 Severity=High)时无需扫描全行,显著提升检索速度。

2. Apache Iceberg:虚拟数据表

单纯的文件堆砌不是数据库。Apache Iceberg 在文件堆之上建立了一套元数据管理机制(清单列表、快照等)。

  • 它支持模式演进(Schema Evolution)和 ACID 合规,使得分布在对象存储中的碎片文件,能够像标准的数据库表一样被快速定位、管理和回溯(Time Travel)。

四、 总结:SIEM 的完美补充,而非替代

需要明确的是,安全数据湖并非要完全取代 SIEM,而是作为其强力的“低成本外挂”或补充工具。

对于深陷成本泥潭的企业,数据湖是以下场景的最佳解药:

  1. 长周期溯源:SIEM 通常仅保留 30-90 天热数据,数据湖可低成本存储数年的全量日志,便于发现长期潜在趋势。
  2. 合规审计:对于“写一次,读从不”的合规性数据,冷存储数据湖是极佳的归宿。
  3. AI 与机器学习:海量、结构化的 Parquet 数据是训练安全 AI 模型、进行异常检测的最佳温床。

如果说传统 SIEM 是一台昂贵但必要的固定引擎,那么安全数据湖就是一套可无限扩展、按需付费的分布式动力系统。通过存算分离,管理者终于可以在预算红线内,实现“既要数据全量留存,又要成本可控”的安全自由。

参考资料:

Go jump in a lake: Measuring the data lake effect on your SIEM:https://redcanary.com/blog/security-operations/data-lake-siem/

Go jump in a lake: Data storage for the win:https://redcanary.com/blog/security-operations/security-data-lake-architecture/


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:玄月调查小组 玄月调查小组 玄月调查小组《为何SIEM成本越来越贵?数据湖又是如何通过“存算分离”降低成本?》

评论:0   参与:  0