文章总结: 本文探讨数据空间作为制度与技术综合框架如何驱动基础模型发展,指出数据空间通过保障数据主权、提升质量、安全开放私有数据等价值,结合检索增强生成(RAG)与微调技术构建数据获取新范式,实现数据价值释放与模型能力提升的双向赋能,推动基础模型向高性能、广应用方向持续演进。 综合评分: 87 文章分类: 数据安全,人工智能,技术标准
【论述】数据空间与人工智能|数据空间驱动下的基础模型发展机制
刘东 刘东
数据信任与治理
2026年4月8日 11:34 北京
在小说阅读器读本章
去阅读
数据空间驱动下的基础模型发展机制
作者:刘东,下一代互联网国家工程中心主任、互联网名人堂入选者
摘要
基础模型作为推动人工智能规模化应用与产业智能化转型的关键技术形态,其性能提升在很大程度上依赖于高质量训练数据的持续供给。然而,在现实应用中,数据质量参差不齐、数据主权难以有效保障、私有及跨域数据难以安全利用等问题,已逐渐演变为制约基础模型进一步发展的重要瓶颈。数据空间作为一种面向分布式数据共享与流通的制度与技术综合框架,为破解上述难题提供了新的可行路径。
本文系统研究了数据空间驱动下的基础模型发展机制,提出以数据空间作为数据治理与可信流通的核心载体,并以检索增强生成(Retrieval-Augmented Generation,RAG)和模型微调(Fine-Tuning)技术作为关键落地手段,构建基础模型数据获取与利用的新范式。通过这一路径,实现数据价值释放与模型能力提升的双向赋能,推动基础模型向更高性能、更广泛应用场景的方向持续演进。
一、 基础模型发展概述
近年来,人工智能技术的快速普及与应用深化,得益于基础模型(Foundation Models, FMs)的突破性发展。基础模型通常基于大规模深度神经网络,通过自监督学习方式在海量数据上完成预训练,具备良好的通用性、跨模态能力以及对多样化下游任务的适配能力。这一技术范式显著降低了人工智能系统的研发门槛,使组织无需从零构建模型,而是能够在既有基础模型之上进行调用、定制与优化,从而有效降低研发成本、缩短应用周期。
基础模型的性能提升普遍遵循“规模法则”(Scaling Law),即模型能力与参数规模、训练数据规模及数据质量之间呈显著正相关关系。理论与实践均表明,训练数据越丰富、质量越高,模型在预测精度、泛化能力和鲁棒性方面的表现越优。尽管当前基础模型已在自然语言处理、计算机视觉等多个领域取得显著成效,但其训练数据仍主要依赖公开或半公开数据资源,企业内部的专属数据、跨组织的私有数据以及高价值行业数据尚未得到充分挖掘与利用。这一现实在一定程度上限制了基础模型在专业领域与定制化应用场景中的能力提升空间。
二、 数据空间对基础模型发展的支撑价值
数据空间是一种基于统一治理原则、标准体系与技术实践构建的互操作框架,其核心目标在于支持多主体之间开展安全、可信、可控的数据共享与流通。在数据空间架构下,数据提供方在保持对自身数据完全控制权的前提下,可通过标准化机制向外部开放数据访问权限,从而为人工智能驱动的创新活动提供高质量数据支撑。
从基础模型发展的视角看,数据空间为其构建了一个“有规则、可验证、可追责”的数据使用环境,使高质量数据的获取不再完全依赖无序采集或集中式汇聚。基础模型关注的是如何通过大规模训练捕捉跨领域、跨任务的共性知识,而数据空间关注的是数据在不同主体之间如何被合规、安全、可控地使用。二者的深度结合,为基础模型研发与应用提供了坚实的数据治理基础和可信任的运行环境。
具体而言,数据空间对基础模型的支撑价值主要体现在以下方面:
一是保障数据主权。数据空间使数据所有者在为基础模型提供训练数据或上下文信息时,能够自主设定数据的使用范围、使用方式与使用期限,始终保持对数据的控制权。
二是提升数据质量。通过统一的数据质量标准和验证机制,数据空间能够有效筛选和沉淀高质量数据资源,从源头上提升模型训练与推理的可靠性。
三是开放私有数据集的安全访问。数据空间为私有数据在合规前提下参与模型训练与推理提供制度与技术保障,使基础模型能够构建更加丰富、完整的知识体系。
四是促进协作与互操作。数据空间推动不同组织之间开展安全高效的数据交换与协同创新,为协作式人工智能解决方案提供基础支撑。
五是强化合规保障。通过自动化的数据使用协议和责任界定机制,数据空间显著降低了跨主体、跨领域数据合作中的法律与隐私风险。
三、 数据空间与基础模型融合的技术路径
数据空间通过制度与技术协同,为基础模型研发提供可信赖的环境及基础设施,将大量分散的数据转化为可被AI模型直接利用的“数据场”,实现数据、算力和算法的广域协同,并确保数据的可用性、安全性与可控性。两者融合有效衔接数据供给与模型需求核心环节,高质量数据推动模型优化,模型能力精准激活数据价值,有助于充分释放数据潜力并促进人工智能应用的发展。
数据空间与基础模型的深度融合,本质上是以技术创新为驱动,实现双向赋能,既释放数据价值,又增强模型能力。然而,这种融合需在技术创新、场景落地和生态协同方面持续探索和实践。目前,检索增强生成RAG及微调等关键技术为其深度融合提供了有力支撑。
(一)检索增强生成(RAG)
检索增强生成(RAG)技术能够从企业内部及其他数据源中提取丰富的上下文信息,从而拓展提示语的内容与语境。通过明确提供检索数据来源,RAG显著提升了模型输出结果的透明度和可追溯性,在金融、法律、医疗等对信任和验证要求极高的领域具有重要的应用价值。此外,RAG依托外部信息补充大语言模型的回答,无需重新训练模型,有效规避了重训练过程中的资源消耗。
在基础RAG架构下,中间组件首先将用户提示语向量化,并与企业知识库中的向量化数据进行匹配筛选,选择最相关内容并加入到提示语中,最终将增强后的提示语传递给大语言模型处理。通过这种方式,模型能够结合企业内部知识的专属语境,生成更具针对性且贴合实际需求的回复。
基于基础RAG概念,还可进一步利用广泛的数据空间,强化模型的语境知识与数据来源。具体流程如下:
-
数据准备与转换:本阶段与基础 RAG 流程保持一致,首先需收集外部数据,并将其转换为向量表示后存储于知识库。该过程并非由单一主体独立完成,而是由数据空间内各参与方分别对自身数据进行向量化及知识库构建。
-
用户查询处理:当用户提交查询指令后,系统会将其转化为相应的向量表示。
-
上下文检索与匹配:检索系统将用户查询的向量与企业自有知识库进行比对,并同步将查询请求发送至数据空间,使数据空间内其他参与方分别在各自知识库中进行相应比对。
-
数据空间结果评估:如数据空间内检索到相关信息,各参与方将反馈包含上下文内容与匹配度评分的元数据给予查询发起企业。
-
数据空间结果获取申请:发起查询的企业可基于元数据筛选所需上下文,并提出获取申请。系统将同步提取企业内部及数据空间所获相关上下文。
-
上下文提取:系统同时提取企业内部知识库中的相关上下文,以及从数据空间申请获取的相关上下文。
-
提示语增强:系统将所有相关上下文与用户原始查询内容进行整合,以生成优化后的增强型提示内容。
-
答案生成流程:大语言模型将结合自身内部知识和经外部检索获得的各类上下文(包括数据空间内容),为用户生成更精确、契合语境的最终答案。
图1:基于数据空间的RAG工作流程
(二)微调
微调是指在规模有限、具备专业属性的数据集上,对经过预训练的基础模型进行再训练,以调整其参数配置,从而实现对特定领域、任务类型或表达风格的适配。在微调阶段,模型通过学习专业数据集中的专属模式、领域术语、语言结构及表达风格,不断提升对目标场景和任务的处理能力,最终成为某一领域的高阶应用模型。
微调技术的主要优势体现在以下两个方面:第一,可使基础模型快速适应专业领域,准确掌握并运用相关术语及表达风格,从而满足法律、金融、医疗等高度专业化场景下的需求,如合同摘要生成、法律条款解析、医疗案例分析等;第二,能够优化模型在特定任务下的推理速度与效率,即使上下文窗口有限,也能高效生成精炼且高度相关的回复,显著降低计算资源消耗与推理成本。
模型在数据空间中微调的流程如下:首先,根据行业或任务需求,筛选领域相关的数据集,例如法律文档、财务报告、医疗案例等。随后,将数据集上传至数据空间,由领域专家或其他数据源完成数据编目、协商与传输。数据收集后,预训练模型基于该数据集进行深度微调,以学习目标领域的专有特征、知识体系及表达方式。微调后的定制化模型能够高效生成符合领域规范的回复,精准满足专业场景下的应用需求。
图2:基于数据空间的微调流程:利用数据空间中的非结构化数据,对预训练大语言模型进行进一步训练,使其能生成更具专业性的回复
(三)检索增强生成与微调的结合
检索增强生成RAG与微调各自具备独特优势与局限性。下表系统梳理并对比了两者的核心特性,以供参考。
| | | | | — | — | — | | 特征 | 检索增强生成(RAG) | 微调 | | 数据需求 | 适配动态数据源的实时数据 | 适配静态或领域专属数据 | | 回复准确性 | 借助外部信息提升准确性 | 针对专业、预设任务的准确性极高 | | 上下文限制 | 受模型上下文窗口限制 | 训练完成后,不受上下文窗口限制 | | 生成幻觉风险 | 提供相关源信息,降低风险 | 风险较低,但受限于训练数据集 | | 适配性 | 无需重新训练,可快速适配新信息 | 需重新训练,才能适配新数据 | | 透明度 | 可提供回复所使用信息的来源 | 信息嵌入模型内部,无外部引用 | | 成本与速度 | 因外部数据检索,计算成本可能较高 | 模型已完成微调,推理阶段效率更高 |
在众多实际应用场景中,将检索增强生成(RAG)与模型微调相结合的混合策略被认为是一种高效且具前瞻性的解决路径。该方案能够集成微调在特定领域适配性和专业风格表达上的优势,同时凭借RAG对外部实时信息的联通能力,有效提升模型在快速变化环境中的应对能力,二者协同作用显著拓展了模型的应用边界。
使用这类混合系统的用户,能同时利用三个层面的知识:
1. 基础模型本身具备的通用知识;
2. 通过微调融入模型的企业领域专属知识;
3. 在回复阶段,通过RAG擎入的最新实时知识。
这种方法在准确性和实时数据均为核心需求的动态行业中,表现尤为出色,以下以金融新闻服务为例进行说明:
微调环节:基于金融专业术语、历史市场数据以及行业特定报告对模型进行精细调整,使其能够有效解析复杂金融术语并精准生成摘要及洞察。为提升模型性能,可授权访问私有金融数据,将企业关键知识整合至人工智能模型之中。经微调后的模型适用于企业员工及客户,有助于深度挖掘和释放企业知识价值。
RAG环节:模型依托RAG机制实时检索最新金融新闻、股票行情和市场动态,确保输出内容契合实际需求并反映当前市场状况与趋势。用户在发起查询时,可依据模型反馈做出科学决策,并确认模型已充分考虑行业发展现状。
总体而言,通过检索增强与模型微调技术,将基础模型与数据空间治理体系深度融合,为未来数据共享及基础模型创新开发提供新思路。本方法不仅提升了跨组织协作效率和深度,同时降低数据泄露与违规风险。在数据空间治理框架下,参与各方能明确数据使用边界,减少跨行业合作过程中的法律及隐私风险,为基础模型的安全与可持续发展奠定坚实基础。
四、 前景展望
数据空间与基础模型的深度融合,标志着人工智能产业发展的关键转折。这一趋势不仅有效缓解了模型训练过程中数据获取的难题,还为构建“协作式人工智能+数据安全可控”的新型协同生态体系奠定了坚实基础。
展望未来,随着基础模型技术的持续演进和数据流通治理机制的逐步完善,人工智能领域有望实现创新能力与治理水平的双重提升,从而形成健康繁荣的产业生态。融合驱动发展将为人工智能全面赋能经济社会各领域提供坚实保障,重塑数据与人工智能价值链,促进产业结构优化,推动数据服务、模型研发及技术适配等相关行业的协同进步,培育新的经济增长点,助力人工智能从“技术创新”迈向“产业赋能”的深度转型,为数字经济高质量发展注入强大动力。
-END-
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:数据信任与治理 刘东 刘东《【论述】数据空间与人工智能|数据空间驱动下的基础模型发展机制》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。











评论