2026-01-26 14:53:53 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 传统SIEM因存算耦合导致成本高昂，文档建议采用存算分离的安全数据湖架构。利用对象存储降本、Serverless按需计算及Parquet等技术，数据湖可作为SIEM补充，用于长周期溯源、合规审计及AI训练，从而实现全量数据留存与成本控制的平衡。 综合评分： 86 文章分类： 安全运营,解决方案,安全建设,云安全

cover_image

为何SIEM成本越来越贵？数据湖又是如何通过“存算分离”降低成本？

原创

玄月调查小组玄月调查小组

玄月调查小组

2026年1月26日 09:36 上海

在企业数字化转型加速与攻击面持续扩大的当下，SIEM系统已然成为企业安全架构的“神经中枢”。从防火墙、数据库到终端（EDR）、身份验证（AD/4A）乃至复杂的云端审计日志，海量数据汇聚于此。

然而，安全团队正面临着一个的成本悖论：

为了看清威胁，你需要更多的数据；但更多的数据，意味着 SIEM 账单的指数级爆炸。

随着 IT 架构从走向云端去中心化，传统 SIEM 逐渐变得臃肿且昂贵。本文将深入剖析传统 SIEM 的架构弊端，并探讨如何利用存算分离（Disaggregated Compute and Storage）的安全数据湖架构，实现降本增效。

一、传统 SIEM 之痛：被捆绑的“算力税”

为什么传统 SIEM 存点日志会这么贵？Red Canary 的首席软件工程师 Brian Davis 指出，核心症结在于其存储与计算紧耦合的架构设计。

1. 昂贵的闲置成本

以开源的 OpenSearch（常作为 SIEM 的底层参考）为例，若要构建一个处理 105TB 数据的集群，通常需要约 12 个高性能节点，配备 432 个 CPU 核心和 3TB 内存。在 AWS 上运行这样一个集群，月成本约为 24,688 美元：

**存储本身的支出仅占 35%**（约 8,640 美元）。
**计算资源（CPU/RAM）的成本占到了 65%**。

这意味着，为了维持索引和数据摄取，企业被迫为数据“供养”大量 24/7 全天候运行的 CPU 和内存，即便在绝大部分时间里，这些强大的算力处于闲置状态。

2. 扩展的阶梯效应

由于存储和计算是绑定的，当你为了合规需要增加存储容量时，即便不需要更多算力，也不得不增加新的节点，支付额外的“计算税”。

传统的 SIEM 就像一家按年缴费的健身房。无论你去不去，也无论你只用跑步机还是全套器械，你都必须全天候付费。

二、数据湖的本质：“穿着风衣的三只浣熊”

为了破解这一难题，现代数据湖引入了存算分离架构。这并非全新的黑科技，Brian Davis 形象地将其比喻为“穿着长袍的三只浣熊”——即利用过去十几年间成熟的开源技术（如 Hadoop、Spark 等）进行重新包装，由各司其职的组件“叠罗汉”，对外伪装成一个数据库。

1. 第一只浣熊：从块存储转向对象存储（降本）

传统 SIEM 依赖昂贵的块存储（Block Storage）。数据湖则利用“魔法”将数据迁移至对象存储（如 Amazon S3 或 Azure Blob）。

成本对比：同等 105TB 数据，存储成本可从 $8,640/月 大幅降至 $2,400/月；若使用深度归档存储（Glacier），成本甚至能降至 $100 左右。

2. 第二只浣熊：Serverless 弹性计算（增效）

在存算分离架构中，数据安安静静地躺在对象存储里。只有在进行威胁猎杀或数据分析时，系统才会利用 Serverless 查询引擎（如 AWS Athena 或 Trino）按需调拨海量算力。

优势：“不查询，不收费”。查询结束后算力立即释放，彻底消除了闲置浪费。

形象比喻：基于存算分离的数据湖更像是一个按次付费的共享体育场。平时只需要支付极低的场地折旧费（存储）；当你需要比赛时，可以瞬间召唤数千名观众（算力），赛后即散。

三、技术底座：Parquet 与 Iceberg 的魔法

既然把算力抽离了，躺在 S3 里的文件如何像数据库一样被快速检索？这离不开底层格式的优化。

1. 列式存储（Parquet）：极致压缩与加速

传统日志通常是 CSV 等行式存储。数据湖则采用 Parquet 等列式存储格式。

高压缩比：利用列数据的重复性（如同一列多次出现相同的日期），Parquet 实现了惊人的压缩率。Red Canary 实测显示，500 万行数据在 CSV 格式下为 290MB，转化为 Parquet 后仅为 8.8MB。
查询加速：列式结构使得查询特定字段（如搜索特定 IP 或 Severity=High）时无需扫描全行，显著提升检索速度。

2. Apache Iceberg：虚拟数据表

单纯的文件堆砌不是数据库。Apache Iceberg 在文件堆之上建立了一套元数据管理机制（清单列表、快照等）。

它支持模式演进（Schema Evolution）和 ACID 合规，使得分布在对象存储中的碎片文件，能够像标准的数据库表一样被快速定位、管理和回溯（Time Travel）。

四、总结：SIEM 的完美补充，而非替代

需要明确的是，安全数据湖并非要完全取代 SIEM，而是作为其强力的“低成本外挂”或补充工具。

对于深陷成本泥潭的企业，数据湖是以下场景的最佳解药：

长周期溯源：SIEM 通常仅保留 30-90 天热数据，数据湖可低成本存储数年的全量日志，便于发现长期潜在趋势。
合规审计：对于“写一次，读从不”的合规性数据，冷存储数据湖是极佳的归宿。
AI 与机器学习：海量、结构化的 Parquet 数据是训练安全 AI 模型、进行异常检测的最佳温床。

如果说传统 SIEM 是一台昂贵但必要的固定引擎，那么安全数据湖就是一套可无限扩展、按需付费的分布式动力系统。通过存算分离，管理者终于可以在预算红线内，实现“既要数据全量留存，又要成本可控”的安全自由。

参考资料：

Go jump in a lake: Measuring the data lake effect on your SIEM：https://redcanary.com/blog/security-operations/data-lake-siem/

Go jump in a lake: Data storage for the win：https://redcanary.com/blog/security-operations/security-data-lake-architecture/

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：玄月调查小组玄月调查小组玄月调查小组《为何SIEM成本越来越贵？数据湖又是如何通过“存算分离”降低成本？》