专题解读|突破数据瓶颈:合成数据驱动的大模型训练新路径

admin 2026-05-16 06:13:55 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本文解读两篇ICLR论文,探讨合成数据解决大模型数据瓶颈的新路径:SyntheticContinuedPretraining通过实体抽取和关系建模将小规模语料扩展为大规模合成数据,提升知识学习效率;SyntheticBootstrappedPretraining通过建模文档间语义关系实现数据自举,优化数据利用效率。研究显示数据结构的优化正成为推动模型能力超越数据规模限制的关键。 综合评分: 86 文章分类: AI安全


cover_image

专题解读|突破数据瓶颈:合成数据驱动的大模型训练新路径

李书杰 李书杰

北邮 GAMMA Lab

2026年5月14日 11:40 北京

在小说阅读器读本章

去阅读

近年来,随着大语言模型的快速发展,预训练技术逐渐逼近“数据瓶颈”。传统依赖海量互联网语料的训练方式,正面临高质量数据耗尽的问题。在这一背景下,如何在既有数据基础上进一步提升模型能力,成为新的研究焦点。

今天,我们将带大家深度解读该领域两篇极具代表性的最新论文,分别从 “小数据放大” 与 “大数据重构” 两个维度,全面拆解通过合成数据进行大模型预训练的前沿进展。

一、Synthetic Continued Pretraining:用“知识重组”放大小语料

论文名称:Synthetic Continued Pretraining. ICLR 2025 Oral.

1. 背景

在实际应用中,许多场景仅拥有规模有限的专有语料,例如企业内部文档或垂直领域知识库。传统继续预训练(Continued Pretraining)在这种小数据条件下往往效果有限,难以让模型有效掌握新知识。

2. 解决的主要问题

研究发现,语言模型学习知识存在明显的数据低效问题。一个事实往往需要多种表达形式才能被模型真正掌握,而小语料中同一知识通常只出现一次或极少次数。此外,简单的数据改写(Paraphrase)无法显著增加知识表达的多样性,导致模型难以泛化。

3. 架构设计

本文提出了EntiGraph框架,通过结构化方式将小规模语料扩展为大规模合成数据。

  • 实体抽取(Entity Extraction):首先从原始文本中提取关键实体,例如人物、概念或对象,为后续结构建模提供基础;
  • 关系建模(Relation Analysis):基于实体之间的组合关系,利用语言模型生成新的描述,从而构建隐式的知识图结构;
  • 数据重组生成(Synthetic Corpus Generation):通过不断组合实体关系,生成大规模具有多样表达的新文本,实现对原始知识的结构化扩展。

4. 实验分析

  • 显著提升小数据学习能力:实验表明,将约百万级别的原始语料扩展至数亿规模后,模型在问答任务上的性能显著提升 ;
  • 优于简单改写方法:相比传统的文本改写策略,该方法能够更有效提升知识表达多样性,从而带来更稳定的性能增长。

二、Synthetic Bootstrapped Pretraining:用“数据关系”重构大语料

论文名称:Synthetic Bootstrapped Pretraining. ICLR 2026 Poster.

1. 背景

当前主流预训练方法主要关注单个文档内部的语言建模,而忽略了文档之间潜在的语义关联。例如论文与代码、书籍与影像内容之间,往往共享相同的抽象概念。

2. 解决的主要问题

传统预训练将文档视为相互独立的样本,无法有效利用跨文档的结构信息。此外,在数据受限条件下,简单重复数据的收益逐渐下降,难以进一步提升模型性能。

3. 架构设计

本文提出了 Synthetic Bootstrapped Pretraining(SBP)框架,通过建模文档之间的关系实现数据自举。

  • 相似文档配对(Document Pairing):通过语义检索方法构建相关文档对,挖掘潜在的共享语义结构;
  • 条件生成建模(Conditional Synthesis):训练模型学习从一个文档生成相关文档的能力,即建模文档之间的映射关系;
  • 大规模数据自举(Data Bootstrapping):利用训练好的生成模型,在原始语料上生成新的数据并参与训练,从而扩展数据分布。

4. 实验分析

  • 提升数据利用效率:在相同计算预算下,SBP相比数据重复策略显著提升模型性能;
  • 逼近大规模数据上限:实验结果表明,该方法可达到使用数倍额外数据训练效果的一定比例,验证了其在数据受限场景下的潜力。

三、结语

从 Synthetic Continued Pretraining 通过结构重组放大小规模语料,到 Synthetic Bootstrapped Pretraining 利用文档关系重构大规模数据分布,这两项工作共同揭示了一个重要趋势:模型性能的提升不再单纯依赖数据规模,而开始依赖数据结构的优化。预训练正在从“数据消耗”走向“数据生产”,未来或将成为突破数据瓶颈、推动大模型持续进化的关键路径。

参考文献

[1] Yang Z, Band N, Li S, et al. Synthetic continued pretraining[C]//The Thirteenth International Conference on Learning Representations.

[2] Yang Z, Zhang A, Liu H, et al. Synthetic bootstrapped pretraining[C]//The Fourteenth International Conference on Learning Representations.

—— END ——

北邮 GAMMA LAB 公众号

主编:石川

责任编辑:杨成

本期编辑:赵明宇


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:北邮 GAMMA Lab 李书杰 李书杰《专题解读|突破数据瓶颈:合成数据驱动的大模型训练新路径》

评论:0   参与:  0