文章总结: 本文系统研究了大语言模型(LLM)在数据安全防护与治理中的应用。文章首先剖析了数据全生命周期各阶段的安全风险,然后探讨了LLM在漏洞检测、恶意软件分析、入侵检测等方面的巨大应用潜力。核心贡献是构建了一个覆盖数据全生命周期、基于LLM的安全防护与治理技术框架,该框架分为治理层、运营层、技术层和模型层,旨在为未来构建更智能、可靠的数据安全系统提供方法指导和技术参考。 综合评分: 85 文章分类: AI安全,数据安全,网络安全,解决方案,技术标准
基于大模型的数据安全防护与治理架构研究
原创
Cismag Cismag
信息安全与通信保密杂志社
2026年4月14日 17:43 四川
在小说阅读器读本章
去阅读
编者荐语
本文跳出单一技术视角,系统梳理了数据从创建到销毁各环节的隐秘风险,并提出一个分层治理架构,将LLM的语义理解、代码分析等能力嵌入安全运营全流程工作中。
引用本文
刘霁莹 . 基于大模型的数据安全防护与治理架构研究[J]. 信息安全与通信保密 ,2025(11):75-85.
文章摘要
大语言模型(LLM)的快速发展正在重构数字生态系统,为数据全生命周期的安全防护与治理带来了前所未有的机遇与挑战。通过系统剖析数据在全生命周期中的安全风险,探讨LLM在强化数据安全防护方面的巨大潜力,进而提出了一个融合LLM的数据全生命周期安全防护与治理架构。该架构强调与现有安全生态系统的深度融合,旨在对数据全生周期实施安全管控,并具备上下文感知、智能决策、高效人机协同等自适应与智能化的数据安全防护与治理能力。这一架构为理解和应对LLM时代的数据安全挑战提供了全景视角,为未来构建更智能、更可靠的数据安全系统提供了方法指导和技术参考。
0 引 言
在数字化浪潮席卷全球的背景下,数据已成为驱动经济社会发展的核心生产要素。与此同时,以大语言模型(large language model,LLM)为代表的人工智能技术正以前所未有的速度渗透至各行各业,其强大的自然语言处理和知识整合能力,在信息检索、内容创作、科学研究等领域展现出巨大的应用潜力。
在网络安全领域,LLM的应用日益广泛,涵盖安全日志分析、网络入侵检测、恶意软件识别、代码漏洞评估、威胁情报分析等场景,显著提升了安全运营的效率和效果。然而,LLM的引入也为数据安全带来了新的、更复杂的挑战。一方面,数据量激增和云计算应用的普及进一步放大了传统安全风险;另一方面,LLM自身的特性及其与数据的深度交互,也在数据全生命周期中引入了全新的、独特的安全风险,如训练数据污染、提示注入、模型参数泄露等。然而,当前研究侧重于传统数据生命周期的安全防护,或局限于LLM自身的安全问题,尚缺乏将二者系统性结合、全面审视LLM时代数据安全风险与防护机遇的视角,尤其是关于如何构建一个整合LLM能力的整体性数据安全治理框架的研究仍属空白。
为弥补现有研究的空白,本文旨在深入探讨现阶段的数据安全治理问题,核心内容包含以下3个方面:
(1)系统剖析LLM在数据全生命周期各阶段所引入的特定安全风险;
(2)深入探讨LLM在数据分类、威胁检测、隐私保护和安全运营等方面赋能数据安全治理的内在潜力;
(3)厘清LLM能力与数据安全治理需求之间的映射关系。
在此基础上,本文的核心贡献是构建了一个覆盖数据全生命周期、基于LLM的安全防护与治理技术框架。本文不仅为系统化理解和应对当下的数据安全挑战提供了理论和方法支撑,更为未来构建智能的数据安全体系奠定了技术基础。
1数据全生命周期模型与安全风险
1.1 数据全生命周期模型
数据全生命周期是指数据从产生到最终消亡的整个过程。针对数据全生命周期的阶段划分,存在多种不同的模型,如云安全联盟(cloud security alliance,CSA)提出的数据全生命周期模型(包含创建、存储、使用、共享、归档和销毁6个阶段)、美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)的研究数据模型和我国金融数据安全数据生命周期安全规范中的生命周期六阶段模型等。尽管这些模型在具体术语和阶段划分上存在差异,但其核心流程具有高度一致性。鉴于CSA的数据全生命周期模型广受认可且阶段覆盖全面,本文采用此模型,将数据生命周期划分为创建、存储、使用、共享、归档、销毁6个阶段,如图1所示。
数据全生命周期各阶段的内涵如下:
(1)数据创建:生成新的数据,或对现有数据进行修改、更新;
(2)数据存储:将数据存放于存储介质中;
(3)数据使用:数据被查看、处理或用于某项活动以实现其价值;
(4)数据共享:将数据提供给其他主体(如组织、用户)或信息系统;
(5)数据归档:将数据从活跃状态转变为长期存储状态,以备将来查阅和审计;
(6)数据销毁:通过物理或数字手段永久且不可逆地清除数据。
1.2 数据全生命周期安全风险
数据在其全生命周期的各个阶段都面临诸多安全风险,如图2所示。因此,对这些风险进行有效管理,是保障数据资产安全的核心与前提。
(1)数据创建阶段的安全风险主要有如下5个方面:
①数据质量差:收集或生成的数据不准确、不完整,不仅影响数据分析和应用的可靠性,也可能直接引发安全隐患;
②过度收集:违反数据最小化原则,收集了超出业务必需范围的数据;
③收集目的不明确:在数据收集时未明确告知用户其目的、方式和范围,从而带来合规性及隐私侵权风险;
④收集方式不安全:数据收集过程缺乏加密等保护措施,数据在不安全的网络中传输,导致其在源头易被窃听或篡改;
⑤缺乏标准化:不同来源的数据格式、标准不一,会增大后续处理和整合的难度,也可能引入安全漏洞。
(2)数据存储阶段的安全风险主要有如下4个方面:
①数据泄露:因云存储配置不当或未加密存储和传输导致数据泄露;
②数据丢失或损坏:因硬件故障、勒索软件攻击、意外删除或备份策略不足等导致数据丢失或损坏;
③加密/密钥管理不当:未使用强加密算法或密钥管理不善等导致加密失效;
④内部威胁:拥有合法数据访问权限的内部人员滥用权限,导致数据被窃取、篡改或泄露。
(3)数据使用阶段的安全风险主要有如下4个方面:
①未授权访问与权限滥用:用户或进程越权访问、操作数据,违背最小权限原则;
②处理过程中的数据泄露:在数据分析、转换、计算等操作环节,因处理逻辑不当、中间结果未受保护或环境存在安全隐患,导致数据泄露;
③使用环境不安全:开发测试环境与生产环境隔离措施不足,或数据处理环境本身存在安全漏洞,导致数据泄露;
④数据完整性破坏:数据在处理过程中,因意外或恶意行为导致其被篡改、破坏,失去完整性和正确性。
(4)数据共享阶段的安全风险主要有如下4个方面:
①传输过程中被窃听或篡改:使用不安全的传输协议或未对传输数据进行加密,导致数据在传输过程中被截获或篡改;
②未授权共享:内部员工操作失误或系统配置错误,导致数据被共享给未获授权的第三方;
③接收方安全能力不足:数据接收方的安全防护能力较弱,即使数据被合法共享,其存储与使用环节仍存在极高的数据泄露风险;
④缺乏访问控制:在数据共享后,未能有效控制接收方对数据的访问权限及使用范围。
(5)数据归档阶段的安全风险主要有如下3个方面:
①长期数据完整性/可用性差:因存储介质老化、格式过时,导致归档数据在长期存储过程中易出现丢失、损坏,且需要时难以及时准确地检索;
②合规性保留难:难以满足法律法规或行业规范对特定数据设定的最低保留年限要求,可能导致违规销毁或逾期留存;
③访问控制疏漏:因归档数据未实施严格的访问控制,导致未授权人员访问归档中的敏感信息。
(6)数据销毁阶段的安全风险主要有如下4个方面:
①删除不彻底:常规删除操作仅移除文件系统的指针索引,而实际数据仍残留在存储介质上,可能被数据恢复工具找回;
②数据残留:数据在被删除或覆盖后,仍可能以物理或磁性痕迹的形式残留在介质上,尖端取证技术可能恢复部分信息;
③物理介质处置不当:废弃的硬盘、磁带、光盘等存储介质,若未进行物理销毁而被丢弃或转售,可能导致数据泄露;
④合规性验证难:难以证明数据已被完全、合规地销毁,缺乏可靠的审计追踪记录。
2数据安全治理研究现状及LLM应用潜力
2.1 数据安全治理研究现状
目前,已有大量研究致力于构建基于数据全生命周期的安全治理框架与模型。例如,韩钢等人从法律法规、国家标准和最佳实践出发,探讨了包括管理、技术及运营的多方协同式数据全生命周期合规治理模式;刘伦棉以金融数据为切入点,构建了一套数据全生命周期安全治理框架;针对医疗大数据开放共享中的隐私挑战,罗兰花等人构建了一个面向数据全生命周期的隐私保护框架并提出了相应对策;姜玮等人则针对我国数据安全保护的现状和面临的风险,从制度、流程、组织、技术等维度系统探究了数据安全保护机制。这些研究从宏观层面,为多领域数据全生命周期的安全治理框架与机制提供了重要的理论框架与实践参考。
人工智能,特别是LLM的兴起,在给数据安全治理带来机遇的同时,也带来了巨大的挑战。LLM自身面临多种安全威胁,包括数据投毒、对抗性攻击/规避攻击、后门攻击、模型窃取/提取、提示注入/越狱和隐私泄露攻击等。为应对这些挑战,针对人工智能的安全与风险管理框架的研究也应运而生。例如,黄炜等人针对生成式人工智能在技术安全、社会伦理和法律层面的风险,从数据、算力和算法等多角度构建了全生命周期视角下的治理框架;张欣则聚焦于生成式人工智能场景下的数据风险与治理路径;高亚楠则从网络安全态势分析入手,提出了相应的LLM网络安全治理框架。
2.2 LLM应用潜力
尽管LLM带来了新的安全风险,但在保证模型安全的前提下(如保证模型权重和训练数据的保密性、模型输出和推理过程的完整性,以及模型服务的可用性等),合理利用其强大的语言理解和生成能力,有望为数据安全治理带来新的突破。研究表明,LLM在数据安全治理方面展现出巨大的应用潜力,包括但不限于以下8个方向:
(1)漏洞检测与修复:LLM可用于分析源代码或二进制文件,以识别潜在的安全漏洞,其在静态漏洞检测方面的性能显著优于传统方法。
(2)恶意软件分析:LLM可以从反病毒报告、行为描述等非结构化文本中提取恶意软件的语义特征,从而辅助其分类和检测。
(3)入侵与异常检测:LLM能够分析海量的系统日志、网络流量及用户行为,以识别异常活动和潜在入侵,尤其在处理非结构化日志数据方面展现出强大优势,且其分析结果具有一定的可解释性。
(4)钓鱼与欺诈检测:LLM擅长通过分析邮件、消息或网页内容中的欺骗性语言模式来检测钓鱼攻击。
(5)威胁情报处置:LLM能够自动处理和分析多源非结构化威胁情报,实现关键信息提取、报告生成与信息关联,进而构建知识图谱,为威胁优先级排序和响应决策提供支持。
(6)安全运营中心辅助:LLM可作为安全分析助手,协助处理告警、关联事件、提供上下文信息、响应建议措施、自动化生成报告等。
(7)安全编码与开发:LLM可用于检测代码漏洞、提供安全编码建议或直接生成符合安全规范的代码。
(8)隐私保护:LLM可用于生成高质量的合成数据,以替代真实敏感数据用于模型训练或共享,从而在保障隐私的前提下释放数据价值。
3基于LLM的数据安全防护与治理
LLM在数据安全防护与治理方面的能力可概括为4类,即数据理解与管理能力、威胁与漏洞管理能力、隐私保护能力以及安全运营与合规能力。其中,数据理解与管理即通过语义理解与自动化技术,实现数据全生命周期的分类、治理与策略管理;威胁与漏洞管理即基于多源数据分析与逻辑推理,识别攻击模式、漏洞及威胁情报,进而提升主动防御;隐私保护即结合数据生成与敏感信息识别技术,实现隐私风险控制与合规数据脱敏;安全运营与合规能力通过自动化分析与策略执行,优化安全运营流程并满足审计与法规要求。LLM数据安全防护与治理能力如图3所示。
3.1 数据理解与管理能力
数据理解与管理能力的核心包括如下4点:
(1)自动化数据分类分级:基于内容语义自动识别数据敏感性,实现对结构化与非结构化数据的动态标注,从而显著降低对传统规则引擎或人工标注的依赖与成本。
(2)身份信息检测:结合上下文语义分析,精准定位并识别文本中的个人身份信息,并能依据具体场景,动态评估其敏感程度,为实施动态访问控制与数据防泄露策略制定提供依据。
(3)数据安全策略智能辅助:能够基于合规要求生成或优化数据安全策略文档,并能识别现有策略中的模糊之处,提供针对性的改进建议。
(4)非结构化数据治理:借助自然语言查询辅助数据资产发现,并可根据数据内容自动生成、完善描述性元数据,极大提升数据治理、管理与检索效率。
3.2 威胁与漏洞管理能力
威胁与漏洞管理能力的核心包括如下5点:
(1)跨源威胁检测:能够实时分析日志、流量等多源数据,识别低慢攻击、横向渗透等复杂攻击模式,缩短平均检测时长。
(2)漏洞检测与代码分析:利用LLM对代码逻辑的理解与上下文推理能力,识别潜在的安全漏洞[如结构化查询语言(structured query language,SQL)注入、缓冲区溢出等],并辅助生成漏洞修复建议或代码补丁。进一步地,该能力通过与传统的静态或动态分析工具集成,实现优势互补,从而提高漏洞检测的效率和准确率。
(3)威胁情报自动化:能够自动阅读、理解并处理海量非结构化的威胁情报(如报告、文章、博客等),并从中智能提取攻击指标、攻击战术等关键信息,关联相关安全威胁标准框架,最终生成威胁报告。
(4)辅助渗透测试:能够辅助渗透测试人员进行信息收集、测试用例生成与攻击载荷构造,从而实现渗透测试流程自动化。
(5)钓鱼与欺诈检测增强:依托对自然语言的深度理解能力,识别钓鱼邮件、虚假网站中的语义陷阱,从而提升欺诈检测的精准度。
3.3 隐私保护能力
隐私保护能力的核心包括如下3点:
(1)隐私保护数据生成:LLM能够学习真实数据的底层分布和模式,生成在统计特性上高度相似的脱敏数据,结合差分隐私和数据增强等技术,进一步增强合成数据的隐私安全性,为多场景下的安全数据共享提供保障。
(2)隐私风险评估与监控:LLM能够持续监控用户与系统的交互行为数据,识别潜在的隐私泄露风险。
(3)自动化数据脱敏:能够动态、智能识别数据中的敏感信息,并自动应用屏蔽、泛化或替换等脱敏技术,实现自动化数据脱敏。
3.4 安全运营与合规能力
安全运营与合规能力的核心包括如下5点:
(1)安全运营中心(security operations center,SOC)智能助手:作为SOC分析师的助手,可辅助漏洞检测、安全保护与风险预防。
(2)自动化事件响应:能够辅助制定和执行事件响应流程,如根据事件类型动态生成标准化响应预案、自动起草通知邮件、辅助协调团队沟通等,缩短响应时间。
(3)配置审计与验证:通过让LLM理解安全配置的最佳实践和基线,使其能自动检查系统的配置文件,识别潜在的配置偏差、过度授权及各类违反安全策略的设定。
(4)合规性审计与报告:能够自动分析访问日志、操作记录、销毁证明等文档,对照相关合规要求进行检查,并自动生成合规的审计报告。
(5)数据残留检测:能够辅助分析存储介质的残留模式,识别因删除或擦除不彻底而残留的敏感数据痕迹。
4基于 LLM 的数据安全治理架构
基于LLM的数据安全治理架构如图4所示,该架构覆盖数据全生命周期,并具备智能化、自动化和自适应的数据分层治理能力,旨在充分挖掘LLM强大的语言理解与生成、多模态信息处理及逻辑推理能力,从而赋能数据安全治理与防护,有效应对日益复杂的安全威胁。
该架构采用垂直分层设计理念,旨在实现治理策略、运营执行、技术实现与智能支撑的功能解耦与协同。其核心结构包含治理层、运营层、技术层和模型层。
(1)治理层:作为架构的最高决策与监控层,负责制定全局数据安全战略、合规策略与风险管理框架。该层包含策略管理中心,用于策略库的维护与分发;风险智能中枢,利用模型层提供的洞察进行态势感知、风险评估与合规审计,并生成高级别告警。治理层通过定义标准和目标,向下层传递策略指令与风险上下文。
(2)运营层:定位于治理策略到技术执行的转换与调度中枢,负责安全流程的自动化和人机协同。自动化治理工作流将治理策略转化为可执行的任务序列(如策略代码),并通过任务序列与技术层交互。人机协同界面则为安全运营人员提供交互接口,支持自然语言查询、可视化分析与事件响应处置。该层接收治理层的指令,并将其分解为向技术层下发的具体操作请求。
(3)技术层:作为核心的安全策略执行与防护层,直接作用于数据本身。该层的核心组件是全生命周期防护引擎,该引擎集成了由模型层赋能的多种安全能力(如数据分类分级、威胁检测、隐私保护技术等)。技术层接收来自运营层的工作流指令和治理层的策略上下文,调用模型层接口获取必要的AI能力支持,并在数据生命周期的各个阶段实施具体的安全控制措施。同时,该层负责收集自身运行状态和安全事件,形成监控数据向上反馈至运营层及治理层。
(4)模型层:作为架构的智能基础支撑层。其核心是LLM能力中枢,该中枢封装了基础LLM及其衍生的能力(如自然语言理解、自然语言生成、代码分析、模式识别等)。该层响应来自技术层的能力调用请求,为其提供执行智能化安全任务所需的AI支持。此外,模型层通过语义分析等能力,为治理层的风险智能中枢提供深层次的风险洞察。
该分层架构构建了一个自顶向下的策略驱动(治理层—运营层—技术层)和自底向上的能力支撑(模型层—技术层/治理层)与状态反馈(技术层—治理层)相结合的闭环控制逻辑。
5 结 语
本文聚焦于LLM时代背景下数据全生命周期的安全防护挑战,通过系统性剖析LLM在增强数据安全各环节的能力,构建了一个以分层治理结构为基础、基于LLM的概念性架构。该架构整合LLM的智能核心,旨在实现对数据从创建至销毁的全过程进行闭环与自适应的安全管控。本文为理解和应对LLM时代的数据安全挑战提供了一个结构化、贯穿全生命周期的分析视角,揭示了LLM技术对传统数据安全范式的潜在变革性影响,为未来设计、开发和部署更智能、更具适应性的数据安全防护系统提供了初步指导,为这一新兴交叉领域的后续探索提供了可借鉴的方向。
当然,基于LLM的数据安全治理架构目前仍处于概念设计阶段,其具体实现路径、在真实复杂环境中的可行性、性能表现及成本效益,均有待后续深入的实证研究与工程验证。需要特别指出的是,本文重点关注LLM在数据安全领域的赋能,而LLM自身的安全问题也是该领域研究的重难点。未来,将致力于构建一套更全面和精细的LLM安全治理体系,为模型的可靠应用筑牢根基。在此基础上,进一步推进LLM与数据安全的深度融合,通过技术创新、标准制定和跨学科合作等方式,打造更加安全、可信、智能的数据生态系统。
作者简介
刘霁莹(1977—),女,学士,工程师,主要研究方向为信息安全。
★
★ ★ ★
★
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:信息安全与通信保密杂志社 Cismag Cismag《基于大模型的数据安全防护与治理架构研究》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论