文章总结: 清华教授李国良阐述AI时代数据库趋势,指出数据库正从被动存储转向主动智能数据中枢。核心特征包括多模态融合、自然语言交互及自主服务,通过语义处理与优化实现Agent-Ready。文章分析了自主数据系统架构与技术,指出当前面临理论匮乏、语义对齐及安全合规等挑战,未来需构建具备持续进化能力的智能数据平台。 综合评分: 95 文章分类: AI安全,数据安全,解决方案
【实验室】专家观点 | 李国良:AI时代数据库发展趋势
原创
清华大学李国良 清华大学李国良
中国软件评测中心
2026年1月29日 18:16 北京
编者按:
基础软件质量控制与技术评价工业和信息化部重点实验室(以下简称“实验室”)作为首批工信部认定的重点实验室之一,始终致力于基础软件产业创新发展研究、关键技术突破及公共服务体系构建,服务国家重大专项及基础软件重点产业链。
本文是清华大学教授、实验室学术委员会委员李国良基于2025实验室学术会观点,系统梳理并编写的署名文章。文章梳理了数据库技术发展的脉络、现阶段关键驱动力与架构创新方向,并对未来面临的主要挑战作出前瞻性探讨。这一演进不仅是技术栈的持续升级,更是AI时代数据基础设施在角色与范式上的根本性变革。
清华大学教授、实验室学术委员会委员李国良
一
数据库发展历程与演进脉络
1.1 数据库六十年的演进之路
自二十世纪六十年代诞生以来,数据库技术蓬勃发展,其演进历程可划分为若干标志性阶段:
- 1970年代:关系模型兴起,奠定了关系数据库的理论基石;
- 1980年代:事务型数据库逐渐成熟,成为企业核心业务系统的支柱;
- 1990年代:分析型数据库与数据仓库崛起,赋能复杂的商业智能分析与决策;
- 2000年代:大数据与NoSQL数据库快速发展,以应对海量、多源异构数据的高可扩展存储与查询处理挑战;
- 2010年代:云原生数据库兴起,通过弹性伸缩与按需使用,重构了数据库的交付与运维模式;
- 2020年至今:数据库迈入智能化新阶段,朝着多模态融合、自然语言交互、智能调优与主动服务的方向演进。
1.2 驱动数据库架构演进的核心力量
数据库系统架构的持续革新,主要受以下六大关键因素的驱动与塑造:
- 应用需求:从支持在线交易处理(OLTP),扩展到在线分析处理(OLAP),进而演进至混合事务/分析处理(HTAP)、流批一体等融合场景,持续适应并引领不断变化的业务需求。
- 数据模型:从经典的关系模型,不断拓展至键值、文档、图、时序、向量等多样化数据模型,持续增强对异构数据类型的原生支持能力。
- 系统架构:从单机架构,到主备复制、多主架构,再到分布式架构,持续提升系统的读写扩展性与可用性。
- 交叉融合:通过与分布式一致性协议融合推动分布式数据库落地,与密码学及安全技术融合实现全密态与防篡改,与人工智能技术融合打造智能数据库,持续提升整体数据管理体系的智能化与可靠性水平。
- 软硬协同:持续高效利用新一代硬件(如CPU/GPU、RDMA/CXL、NVMe SSD、FPGA、SGX/TEE等),持续突破性能瓶颈,并提升性价比与安全能力。
- 部署形态:从本地部署演进至云上托管服务、云原生数据库(存算分离、日志即数据),并进一步向无服务器感知(Serverless)架构发展,持续追求更高的成本效益与敏捷性。
二
自主数据系统(数据智能体):AI-Ready/Agent-Ready 数据库的未来形态
2.1 “AI-Ready/Agent-Ready”数据库的内涵与特征
“AI就绪”或“Agent就绪”数据库,是为深度集成与赋能AI应用而设计的新一代数据管理系统。其核心是从被动的数据存储库,转变为能够理解、推理并主动响应的高级数据服务平台。主要特征体现在以下五个维度的根本性变革:
- 数据模型(关系型多模态融合):超越单一的结构化数据管理,实现对文档、向量、图片等多模态数据的原生融合与统一处理。这使其从静态的“数据存储器”升级为驱动AI应用的主动智能中枢,核心职责贯穿数据集成关联、智能发现探索,直至面向AI的高性能访问,提供统一集成、智能感知与即时响应的全方位能力。
- 查询模型(声明式查询自然语言查询):支持使用自然语言直接进行查询、交互分析与报告生成,极大降低了使用门槛。其查询过程具备探索性(如交互式数据模式发现)与可重叠优化特性,标志着从需要精确语法的传统模式,向具备深度语义理解能力的智能交互的关键跨越。
- 计算范式(字符串匹配语义理解与生成):实现从“字符串匹配”到“语义理解与生成”的根本转变。其核心在于内嵌的语义理解与推理引擎,能够解析用户意图,并提供一个支持混合检索(向量+全文+关系过滤) 的高性能计算底座,以保障智能体工作流所需的实时响应与海量向量计算。优化目标也从单一追求低延迟,演进为降低LLM消耗、提升准确率、兼顾延迟的多目标平衡。
- 设计理念(被动式服务主动式服务):实现从“被动响应”到“主动服务”的范式转移。服务主体从人转向AI与智能体,以应对其高频、复杂、模糊的请求。系统通过记忆管理、上下文感知、反馈优化与持续学习等机制,能够主动提供情境化的智能数据服务。
- 部署方式(静态预制部署动态按需部署):拓展Serverless架构,部署方式正从静态预配置全面转向动态按需供给。这不仅实现了资源的快速启停、弹性伸缩与按需消费,更完成了从“预先规划资源”到“实时匹配需求”的根本性转变,从而达成了资源的高效动态适配与系统的持续自主优化。
总而言之,这些变化共同描绘出一个为智能时代而生的数据基础设施新图景:它不再是沉默的后端系统,而是能够对话、思考并主动协作的智能伙伴。
2.2 自主数据系统的工作原理和架构
为实现“AI就绪”或“Agent就绪”的数据库愿景,李国良教授提出了自主数据系统的构想。该系统旨在统一管理关系表、文档、向量及图片等多模态数据,并支持基于自然语言的跨模态联合语义查询。其底层能力通过融合SQL引擎、关系算子、语义算子(如基于语义的过滤、基于语义的分组)及代码生成(如UDF) 等机制共同实现。
系统工作流程遵循智能闭环:首先,解析自然语言查询,将其自动转换为一个由SQL、语义算子及生成代码组成的初始执行计划。随后,系统基于多目标优化(权衡LLM Token消耗、计划准确率、执行延迟等)生成高质量的最终查询计划并执行。更进一步,系统能自动发现计划中的错误并进行迭代修复,从而持续提升计划的准确性与可靠性。
为实现上述智能闭环,其核心架构具备以下特征:
- 存储层(统一与融合):构建支持面向AI应用、OLTP、OLAP的多模态数据高效访问的统一存储格式,优化不同数据访问模式(遍历、点查、更新、批量分析)的性能;可以通过MCP对接不同数据源(如关系数据库、大数据平台、文件系统等);设计多源异构数据的编织机制,提升数据融合效率。
- 语义层(理解与发现):构建语义数据目录与主动元数据管理体系,帮助查询快速探索与定位相关数据;利用语义索引技术,提升数据探索与访问效率。
- 编排层(理解与编排):实现从自然语言到语义计划(由语义算子、关系算子、SQL、代码构成)的自动编排技术,旨在提升从意图到可执行计划的转换准确率。
- 优化层(权衡与调优):实现语义基数估计、跨模态代价估计、语义查询重写及语义计划优化等技术,以完成复杂的多目标优化任务。
- 执行层(高效计算):打造高效处理关系算子、语义算子、向量检索算子以及混合算子的能力,并通过模型级联等策略降低模型调用成本,在保证结果准确率的同时提升效率。
- 记忆层(学习与演进):负责上下文管理、个性化记忆与流程复用,并对执行过程(包括正误流程)进行记录与反馈,从而为任务编排、优化与执行提供闭环反馈能力,推动系统持续演进。
- 反馈层(评估与进化):检查语义计划的准确性、执行计划的性能、优化方法的优劣,并提供闭环反馈机制,持续提升系统的综合鲁棒性。
- 应用层(交互与服务):提供自然语言、类SQL、API等多种交互接口,直接支持多模态查询、智能问答、智能归因分析及报告生成等高级数据处理任务。
2.3 自主数据系统的核心技术
为构建自主数据系统,需在语义处理、计划编排、优化、执行及记忆五个层面实现关键技术突破。
- 多模态数据的语义处理技术:旨在实现多模态数据的高效统一管理与智能关联,构建核心数据底座。(1)统一存储与索引:设计支持不同访问模式的高效存储格式,并构建跨模态统一索引,以提升多模态数据的访问与获取效率。(2)虚拟集成与关联:通过逻辑映射层实现多源数据的虚拟集成,减少移动与复制开销;利用语义编织技术智能建立跨模态数据间的深度关联。(3)智能治理与探索:依托主动元数据管理实现数据的智能化治理;构建语义数据目录,支持高效的数据探索与发现。
- 高质量语义计划编排技术:旨在将自然语言查询准确、高效地转化为可执行的语义计划。(1)深度理解与增强,通过深度理解查询、数据、业务来提升语义计划编排的准确率,具体包括查询理解:精准解析自然语言中的用户习惯与查询意图;数据理解:自动发现并关联查询相关的数据实体与元数据;业务增强:理解业务概念(如“环比增长”)并建立业务语义关联。 (2)闭环迭代与学习,通过持续迭代与自我学习深入提升计划编排能力,具体包括反馈优化:构建计划反馈机制,自动检测语法、语义及结果错误,提供定位与归因;持续学习:系统持续沉淀各环节经验,形成体系化知识,驱动整个编排流程的准确率持续提升。
- 多目标语义计划优化:旨在优化目标从单一执行代价扩展至综合效能(降低LLM token消耗、提升准确率、降低延迟),实现智能权衡。(1)语义基数估计:传统数据库可基于列内属性值分布、列间相关性等进行基数估计。然而,面对缺乏结构化元数据(如表、列)的非结构化数据,在语义层面建立语义基数估计方法,为代价评估提供新基础,以更准确地评估查询代价。(2)多目标优化机制:传统优化通常以执行代价为核心目标。语义计划的优化目标则扩展至 LLM Token 消耗、计划准确率、执行延迟等多个维度,引入帕累托优化等方法,在多个目标间实现均衡寻优。(3)跨源协同优化:当查询涉及跨数据库、跨数据源时,优化器需进一步考虑异构数据源的特异性(如传输延迟、计算能力、数据分布),以制定全局最优的端到端执行计划。
- 语义计划高效执行机制:语义计划执行的核心目标是高效且经济地运行优化后的语义计划。 (1) 批处理技术:将多个数据项组合后批量调用LLM,以提升处理效率并降低平均调用成本。(2) 嵌入过滤技术:利用嵌入向量计算相似度,在早期过滤掉与查询无关的数据项,减少后续处理负载。(3) 模型级联技术:结合大、小LLM,让小模型先进行粗筛或预处理,仅在复杂任务上调用大模型,从而优化整体性能与成本。 (4) 向量化执行与缓存优化:采用向量化执行模型提升流水线效率,通过优化数据分组(如按共享前缀)来显著提高KV缓存命中率,进一步降低LLM的计算开销。
- 高效记忆机制:通过短期与长期记忆确保系统的连续性、适应性及决策可追溯性,产出可追溯的、版本化的输出结果。(1)记忆架构,打造长短期记忆结合的架构,来存储语义知识、上下文元数据、历史决策,已指导系统的高效运行。短期记忆:保存临时上下文、执行日志及即时反馈,无关信息被快速丢弃;长期记忆:存储持久核心知识、历史数据与高频元数据,支撑模式复用与适应。(2)分层索引存储:依据访问频率与相关性对长期记忆分级,并构建向量索引以提升检索效率。(3)记忆提升机制:将短期记忆中有价值的项目筛选并持久化至长期记忆。(4)冲突检测与化解:识别并解决不同记忆间的不一致,提升整体可靠性。
2.4 自主数据系统的案例
本文聚焦自主数据系统的三大核心案例:自主数据分析系统、自主数据科学系统、支持语义算子的数据库系统。其余相关系统(如自主数据库运维、自主数据库开发等)将不在此详述。
(1)自主数据分析系统:旨在实现对结构化与非结构化异构数据的统一语义分析。面对非结构化数据(如图像、文本)格式自由、多模态、语义模糊的特性,其分析需超越传统检索与句法解析方法,核心挑战在于实现跨模态的语义理解与深度分析。该系统正向数据分析智能体(Agent)范式演进,不仅能探索数据,更能进行解释、推理与综合洞察。其运作依赖三大基础:
- 统一的语义接入层:访问全域数据源,并构建统一的语义目录。
- 丰富的语义算子层:定义面向分析任务的一系列语义操作符。
- 广泛的系统连接层:对接底层各类系统的API、工具与SQL接口。
基于此架构,系统能够针对特定分析任务,自动生成、优化并执行端到端的数据处理管道。
(2)自主数据科学系统:区别于传统手动、割裂的流程,该系统能够自主编排从数据发现到模型评估的完整数据科学工作流。给定一个自然语言描述的任务(如“预测用户流失”),系统可自动将其分解为子任务管道,并调度不同的功能智能体协同完成,不需要用户手工写代码。其核心设计如下:
- 模块化的功能智能模块:针对数据科学各环节(如数据发现、清洗、模型选择、训练评估)开发专业化智能体。
- 开放的工具集成:无缝连接外部机器学习库、特征工程工具及可视化平台等生态系统。
- 动态的管道编排与优化:根据自然语言查询自动选择并调度智能体,通过动态优化确保流程效率与鲁棒性,形成可解释、自适应且持续演进的自动化工作流。
- 自闭环反馈系统:系统能够基于执行状态与中间结果进行动态感知与自主调整,通过持续反馈循环,最终自动编排生成准确的执行计划,实现从感知、决策到执行的完整自闭环。
- 可扩展的架构:设计允许通过规范接口集成新的功能智能体,在统一框架内实现无缝协作。
(3)支持语义算子的数据库系统:传统数据库系统主要支持关系算子,普遍缺乏对语义算子(如语义过滤、分组、连接)的支持。引入语义算子可显著提升数据库的语义理解与处理能力,进而支持用户使用语义SQL对关系数据库进行直接查询。例如,用户可执行如下查询:
Select * from Paper
where PaperYear = 2025 and
SemanticFilter (PaperAuthor, “Asian”) and
SemanticFilter(PaperAbstract, “AI+DB”) 。
为高效响应此类查询,需实现两大核心突破。(1)语义算子的高效执行机制:采用模型级联、KV缓存优化等技术。(2)混合优化与执行框架:建立融合关系算子与语义算子的混合优化(如语义基数估计、查询重写)与执行框架。
三
未来发展挑战
自主数据系统作为新兴方向,在迈向成熟应用的过程中,仍面临一系列基础性与系统性的挑战。
3.1 多模态数据管理的理论和技术匮乏
当前,AI原生的数据处理仍缺乏类似关系模型的统一、形式化且广泛适用的基础理论与抽象框架。具体而言,面临以下三方面关键挑战。
- 缺乏统一的数据表示与组织模型:文本、图像、音频等多模态数据访问模式多样、结构异构,尚缺乏通用的表示模型与标准化存储格式,难以支撑高效、一致的数据组织。
- 语义优化技术不成熟:主流多模态模型参数量大、计算开销高,而面向查询优化、计算下推、近似推理等系统级优化方法尚未成熟,制约了实时与边缘场景的应用。
- 查询结果量化评估框架缺失:受模型幻觉、语义模糊等因素影响,多模态分析结果具有不确定性,目前缺乏形式化框架来量化评估结果的置信度与可靠性。
3.2 多模态数据的对齐与融合的深度不足
实现深层次的多模态智能,仍需突破以下融合瓶颈。
- 细粒度语义对齐困难:不同模态在表示形式与语义粒度上存在显著差异,实现精准的跨模态语义对齐仍是核心挑战。
- 长程上下文建模机制缺乏:多模态理解高度依赖场景上下文,而现有方法在建模长程、跨模态的上下文依赖并进行联合推理方面效率低下。
- 动态与静态信息融合框架缺失:视频、音频等动态信息与文本、图像等静态信息在时空特性上本质不同,尚缺乏统一的框架来实现二者在多层次上的协同对齐与融合。
3.3 自然语言查询的准确性与可控性不足
当前,NL2SQL 及其进阶形式 NL2SemanticSQL(语义SQL)在查询编排准确性、语义歧义消解与深层用户意图理解等方面仍面临显著挑战。尤其在处理复杂业务逻辑、隐含语义、意图消歧及多跳推理等场景时,模型准确率仍有待提升。更为关键的是,现有系统亟需增强交互式追问、意图澄清与结果可解释性等能力,以保障生成查询的可靠性、可控性与用户信任。
- 对隐含语义与常识理解不足:系统难以捕捉非显式表达的意图、情感及常识知识,在跨领域场景下表现不稳定。
- 缺乏主动的交互澄清机制:自然语言指令普遍存在模糊性,而系统缺乏上下文感知的主动澄清能力,易导致错误级联传播。
- 复杂推理的可解释性弱:面对需多步骤、多源信息融合的复杂查询,现有方法在逻辑连贯性与推理透明度上不足,难以构建高可信的端到端解析流程。
3.4 生态构建、测试基准、与标准化匮乏
技术的规模化发展离不开健康的生态,当前该领域面临:
- 统一的接口与框架标准缺失:尚未形成通用的查询编排、优化与执行框架,导致系统间互操作性差。
- 综合评估体系和基准不健全:传统单任务指标(如准确率)已无法衡量自主系统的综合能力,亟需建立从自主性、稳健性到成本效益的全方位工作流级评估基准。
- 开源协作与互操作规范不足:为降低生态碎片化,必须积极推动开源协作并建立跨平台互操作规范,这是行业健康发展的关键前提。
3.5 数据安全、隐私与合规性风险高
随着多模态数据的广泛应用,其伴生的系统性风险日益凸显:
- 偏见与公平性问题:模型易放大训练数据中的社会文化偏见,导致生成结果存在歧视,引发伦理风险。
- 可解释性与可控性弱:系统决策过程多为“黑箱”,缺乏可追溯性,难以进行有效的人工干预与修正。
- 隐私保护技术不成熟:多模态数据常包含人脸、声纹等敏感信息,如何在保障隐私的前提下实现高保真语义分析,仍缺乏成熟方案。
四
结论:数据库是AI时代的数据中枢
回望数据库技术六十年的发展历程,其始终肩负着“顶天立地”的双重使命——既是计算机科学前沿探索的核心领域,也是支撑千行百业数字化转型的坚实基石。步入2020年代,在人工智能与多模态数据深度融合的驱动下,数据库技术正经历一场深刻的范式跃迁:从一个被动的数据存储与检索系统,加速演进为一个主动的智能数据中枢。
新一代数据库不仅能够高效承载与管理海量异构数据,更内核性地嵌入了语义理解、自主分析与主动服务的能力,从而成为驱动智能决策与业务创新的核心引擎。展望未来,数据库的发展将聚焦于四大关键方向:多模态融合、智能语义处理、主动服务,以及持续学习与进化。
期待学术界与产业界紧密协作,共同推动构建更强大、更易用、更安全、更开放的自主智能数据管理平台,为全球数字化与智能化进程提供坚实、可信、可持续的数据基础设施。
(作者:清华大学教授 李国良)
李国良,清华大学教授,计算机系副主任,博士生导师,国家杰出青年科学基金获得者(并延续资助),重点研发项目首席科学家,数据智能北京市重点实验室主任,ACM Fellow, IEEE Fellow。在数据库领域顶级会议和期刊上发表论文200余篇,他引24000余次(2025年12月),入选爱思唯尔2014-2024年中国高被引学者榜单。获得了VLDB 2017 Early Career Research Contributions Award(VLDB青年贡献奖,亚洲首位获奖者)、IEEE TCDE Early Career Award(IEEE 数据工程领域杰出新人奖,亚洲首位获奖者)。担任ICDE 2027程序委员会主席、SIGMOD 2021大会主席、SIGMOD 2023 Tutorial主席、SIGMOD 2024 Programming Contest主席、VLDB 2021 Demo 主席、ICDE 2022 Industry 主席。获得过Best of SIGMOD 2023、Best of VLDB 2023、Best of VLDB 2020、Best of KDD 2018、Best of ICDE 2018,ICDE 2025最佳论文亚军,VLDB 2023工业界最佳论文亚军,SIGMOD 2024 研究亮点奖,DASFAA 2023最佳论文奖,CIKM 2017的最佳论文奖。
相关推荐:
【实验室】专家观点系列三 | 陈海波:万物智联时代操作系统的创新路径与生态构建
【实验室】专家观点 | 陈文光:国产智能计算软件的发展现状、挑战与前景
【实验室】专家观点 | 张云泉:算力经济发展的趋势分析与展望
【会议活动】基础软件质量控制与技术评价工业和信息化部重点实验室2025年度学术委员会会议在京隆重召开
文字 | 信发事业部
编辑 | 品牌推广室
编审 | 大客户部
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:中国软件评测中心 清华大学李国良 清华大学李国良《【实验室】专家观点 | 李国良:AI时代数据库发展趋势》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。







评论