三篇论文入选SIGMOD2026:从真实业务深处长出的字节跳动数据库创新

admin 2026-06-12 04:43:25 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 字节跳动数据库团队三篇论文入选SIGMOD2026,聚焦真实业务场景下的数据库创新:TokaDB通过混合数据组织、成本优化I/O引擎和优先级资源管理器,解决海量数据与大模型推荐场景下的性能与成本平衡问题;ByteGraph-Dione采用轻量级事务、自适应双格式存储和热点数据细粒度扩展,让图数据库同时支持OLTP与OLAP混合负载;G2⁺D通过本地化子图构建、相似性调度和资源共享池,实现万亿边图挖掘系统的生产级落地。这些成果均经过大规模生产验证,体现了从业务实践中沉淀行业方法论的技术路线。 综合评分: 96 文章分类: 数据库,解决方案,数据安全,应用安全,云安全


cover_image

三篇论文入选 SIGMOD 2026:从真实业务深处长出的字节跳动数据库创新

原创

字节跳动数据库 字节跳动数据库

字节跳动技术团队

2026年6月11日 17:00 北京

在小说阅读器读本章

去阅读

能登上 SIGMOD 这座数据库领域的 “学术高峰”,足以证明一项技术的含金量。

在当下,不少技术都面临着 “学术好看、落地难产” 的现实矛盾:研究止步于理论推演,一旦走进真实业务就漏洞百出;而能扛住流量的工程方案又很难提炼出具备行业价值的创新。

而字节跳动数据库团队此次交出的答卷正是对这一现状的有力回应:团队的三篇论文入选 SIGMOD 2026,这三篇论文既在学术层面给出了严谨解答,也为数据库行业中的一道道棘手难题提供了解法,最重要的是,这些工程解法都是经过大规模生产环境验证的。

此次入选的三篇成果各有侧重:两篇团队独立研发的论文分别攻克多模数据库、图数据库领域难题;另一篇联合 TikTok 社交图谱团队打造的论文则聚焦超大规模图挖掘系统。三项技术的集中亮相,不是短期爆发而是一条清晰技术路线的阶段性落地:以海量复杂业务为试验场,在千变万化的生产环境中千锤百炼,最终将一线实践沉淀为全行业可复用、可验证的方法论。

一、TokaDB:在海量数据与大模型推荐场景中,把“高性能”和“低成本”同时做出来

TokaDB 的价值不只是“能存更多数据”,而是在字节跳动海量在线业务与大模型推荐场景下,找到了一条兼顾性能、成本与资源治理的新路径。

在字节跳动内部,面向 Trace、搜广推、财经、风控、电商、IM 消息等海量数据业务场景,TokaDB 持续在高性能、低成本、高可用方向深耕。在进入大推荐模型(Large Recommendation Models, LRM)时代后,一边是训练侧需要大范围扫描长行为序列,另一边是推理侧要求毫秒级读取最新特征与缓存结果,数据库面临混合访问模式冲突、规模与成本压力、资源治理难题三大核心挑战。为了应对这些挑战,TokaDB 在数据组织模式、I/O 引擎、资源管理器三个方向进行探索求解。

混合访问专用的数据组织:围绕真实访问模式重做了数据组织。针对训练与推理并存的混合负载,团队提出了面向混合访问的数据布局,让系统既能高效点查单个用户的完整行为序列,也能按时间范围快速扫描所需数据段,尽量避免无效读取和重复拼接。换句话说,它不是为某一种理想化场景设计,而是为生产环境里最常见、最复杂的“既要又要”而设计。

成本-性能协同优化的 I/O 引擎:围绕低成本介质做系统级优化。面对百 PB 到 EB 级的数据规模,单纯依赖高性能硬件并不现实。TokaDB 通过存储计算分离(Storage-Compute Disaggregation)、冷热分层、在线纠删码(Erasure Coding)以及“日志即数据(Log as Data)”等设计,让 HDD 等更低成本介质也能承接高强度业务压力。这背后的思路很明确:不靠堆资源换性能,而是通过架构创新重新定义成本曲线

基于优先级的资源管理器:把“资源治理”当成核心能力来做。当在线推理、离线训练和后台任务三者同时运行时,真正拖垮系统的一般来说不是单点性能,而是资源争抢带来的抖动。TokaDB 围绕 CPU、缓存与 I/O 构建了基于优先级的资源管理器(Priority-Based Resource Manager),让高优先级在线服务在复杂负载下依然保持稳定。这就有点类似城市交通中的“应急通道”设计:高峰期先保证关键车辆能顺畅通过,而不互相争抢。

这条路线的价值也在工程结果中印证了。在真实业务测试中,TokaDB 相比传统方案实现了更优的端到端性能,还很大的降低了整体硬件成本;在部分典型场景中让成本下降达到 50% 以上,甚至更高。这意味着对数据库来说它不只是“论文里的新结构”,还是在真实业务中已经经受住了规模、复杂性与长期运行的检验。

二、ByteGraph-Dione:让同一套图数据库同时扛住事务处理与实时分析

ByteGraph-Dione 解决的不是单一图查询快不快的问题,它解决的是生产级图数据最棘手的矛盾——同一份图数据,如何同时服务高并发事务处理与复杂分析任务。

在抖音、今日头条等业务里图数据无处不在:用户关系、内容传播、互动行为、风险链路、数据血缘等都天然以图的形式存在。现在的问题就是,这些场景并不只有一种访问方式。例如用户点赞、关注、评论这样的在线事务处理(Online Transaction Processing, OLTP)要求低延迟、快响应;传播链分析、路径查询、多跳遍历这样的在线分析处理(Online Analytical Processing, OLAP)又要求大范围扫描与稳定一致性。现实中,这两类负载经常同时发生,而且会随着热点事件和业务节奏动态变化。

ByteGraph-Dione 的第一个关键创新是提出了轻量级事务机制。团队在传统多版本并发控制(Multi-Version Concurrency Control, MVCC)的基础上进一步提出了长短事务差异化管理的优化方法:让长时 OLAP 聚焦稳定快照,让短时 OLTP 以更轻量的方式快速完成。这背后的本质是把“所有事务一视同仁”的旧思路,改成“按业务实际需求分层治理”的新思路。从结果来看系统显著减少了版本管理开销,在保证一致性的同时提升了整体吞吐。

第二个创新是自适应双格式存储(Adaptive Dual-Format Storage)。传统图系统通常要么偏行式、适合事务处理;要么偏列式、适合分析扫描。ByteGraph-Dione 不再把这种选择前置为静态架构决策,而是让系统根据实际负载动态决定数据以何种格式组织,甚至细化到邻接表粒度。可以把它理解为一台会“自动换挡”的图引擎:堵车时用适合低速高频启停的档位,上高速时切到更适合巡航的档位。

第三个创新是对热点数据进行细粒度扩展。社交图天然存在幂律分布,少数热点节点会在短时间内承受极高访问压力。传统做法一般是复制整个分片,这样做代价大、效率低。ByteGraph-Dione 就很直接,它把粒度下沉到热点邻接表,然后它只复制真正热的数据,同时配合流量调度精准分发请求。资源浪费减少了,系统对热点冲击的响应也变得更敏捷。

从工程价值来看,ByteGraph-Dione 不只是提升单点性能,而是面向字节跳动真实、复杂且持续变化的图工作负载进行系统优化,在稳定服务核心业务的同时降低资源和运维成本。这也体现了 ByteGraph 作为生产级图数据库的关键演进重点:在高性能、高稳定性的基础上,以更低成本支撑业务长期增长

三、G2⁺D:与 TikTok Social Graph 联合,把万亿边图挖掘做成真正可落地的生产系统

G2⁺D 的突破,不只是把图挖掘任务跑得更快,而是把原本高度昂贵、容易失控的大规模多跳图分析,做成了一套可持续运转的生产基础设施。

如果说图数据库解决的是“图数据怎么存、怎么查”,那图挖掘解决的就是“如何从巨大的图中持续提取业务价值”。像在 TikTok 社交场景中,好友推荐、内容分发、Stories、直播、搜索等业务,这都很依赖对海量社交图进行多跳分析。这里的规模可不是抽象概念,而是数十亿顶点、万亿级边、每天数十亿任务,以及超过十万 CPU 核心的集群协同。

我们可以看到这类系统最大的难点已经不是某个算法本身,而在于如何把 Load-Compute-Write 这条链路真正跑顺。G2⁺D 的第一个关键设计很巧妙:它围绕本地化子图构建做优化。先用一层 LRU 子图 cache 把热点子图留在本地内存,减少反复的远程拉取与重复加载,让计算真正”贴近数据”;再用软指针(Soft Pointer)让 cache 命中时直接解引用本地邻接结构、绕开全局共享索引,消除 shard 锁竞争。前者负责”数据在本地”,后者负责”访问不抢锁”,两者叠加才把这条链路跑顺。

第二个关键设计是面向缓存复用的相似性调度(Similarity-Based Scheduling)。传统任务调度更关注平均分配,G2⁺D 则更关注“哪些任务应该被放到同一台机器上跑”。因为在图挖掘场景中,任务之间往往有很高的邻域重叠,如果调度得当,就能显著提高缓存命中率,减少重复构图开销。换句话说,它优化的不是单个任务,而是整个任务群的协同效率。

第三个关键设计是让流式与批式任务共享一套资源池,同时通过优先级、缓存隔离与多因素路由保护实时任务。这样一来,系统既能在高峰时优先保障实时请求,又能在空闲时把闲置资源交给批任务使用。最终效果很直接:集群 CPU 利用率从约 43.5% 提升到 88.1%,批任务完成时间显著缩短,实时延迟依旧稳定在业务可接受范围内

这篇联合论文还有个特别之处,那就是它体现了数据库团队与 TikTok Social Graph 团队协同攻坚的能力:一端扎根图计算业务前线,一端沉淀系统与平台能力,最终把一个极具挑战的问题打造成可复用、可扩展、可验证的基础设施成果。这种联合创新本身就是字节跳动技术体系的一种代表性能力。

以业务为土壤,以创新为根本,把数据库能力持续做到产业前沿

三篇论文同时入选 SIGMOD 2026,这不是一次性的高光时刻那么简单,这是字节跳动数据库团队长期深耕、持续演进的自然结果。

从支撑 EB 级数据与大模型推荐的新型数据库,到应对动态图混合负载的新一代图引擎,再到面向万亿边社交图的高性能图挖掘平台,这三篇论文覆盖了字节跳动数据库技术版图中的不同方向,它们共同指向同一个答案:真正有生命力的数据库创新,必须来自业务一线,最终也要回到业务价值

这就是字节跳动数据库技术路线最鲜明的特征——不为创新而创新,不为论文而论文,而是在超大规模业务、复杂负载与持续变化的场景中,持续做难而正确的事。业务会给出各种严苛无比的问题,工程实践也会提供最直接的反馈,而技术创新则在一次次淬炼中长出血肉来。

未来随着 AI、推荐、社交、多模态检索等场景继续演进,数据库系统还会面对更复杂的数据形态、更高的实时性要求和更严格的成本约束。面对这些挑战,字节跳动数据库团队将会继续扎根业务一线,把生产环境里的挑战变成系统能力,把系统能力沉淀为行业可见的创新成果。

从业务中来到产业中去。三篇 SIGMOD 2026 论文,是一次阶段性回答,也是一段长期创新旅程的新起点。


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:字节跳动技术团队 字节跳动数据库 字节跳动数据库《三篇论文入选 SIGMOD 2026:从真实业务深处长出的字节跳动数据库创新》

评论:0   参与:  0