文章总结: 该文档介绍了一种名为GraphTokenizer的通用框架,旨在解决图数据难以直接输入Transformer的问题。该方法利用频率导向的欧拉回路实现图结构的可逆序列化,并结合BPE算法将高频子结构压缩为语义Token。实验表明,该方法在14个数据集上达到SOTA,大幅提升训练效率与压缩率,且支持标准GPT进行图生成,为构建图基础模型提供了新路径。 综合评分: 90 文章分类: 其他
ICLR 2026 | 图词元化:构建图与Transformer的通用接口
原创
郭泽远 郭泽远
北邮 GAMMA Lab
2026年3月10日 10:15 北京
01 背景:当图遇上Transformer
过去几年,Transformer架构(尤其是LLM)在自然语言处理、计算机视觉等领域取得了统治级地位。其成功的核心秘诀之一在于Tokenization(词元化)——将原始数据(如文本、图像Patch)转化为离散的、富有语义的Token序列。
然而,在图(Graph)领域,这一步走得异常艰难。
图数据是非欧几里得结构,没有自然的顺序,且具有排列不变性(Permutation Invariance)。为了将图“喂”给Transformer,学术界主要尝试了两条路径:
- 魔改架构(Graph Transformers): 在Attention机制中硬性注入图结构偏置。这使得模型无法直接复用LLM社区的算子优化(如FlashAttention)和预训练权重。
- 多模态兼容(Moltimodal): 采用经典的模态融合方案,使用GNN或其他网络架构或序列化转换,之后特殊处理graph数据,进而与LLM的特征嵌入空间对齐。
我们不禁要问:能否设计一种通用的Graph Tokenizer,让标准的、未经修改的Transformer(如BERT、GPT)也能像处理文本一样,高效、精准地处理图数据?
我们的答案是:能,关键在于“如何Tokenize”。
02 核心方法:Graph Tokenizer
我们提出了一种名为 Graph Tokenizer 的通用框架。它的核心思想非常直观:将图视为一种特殊的语言,利用NLP中成熟的BPE算法来提取图中的“词汇”。
整个流程分为两个关键步骤:
第一步:结构导向的可逆序列化 (Structure-Guided Reversible Serialization)
直接将图转为序列(如DFS/BFS)通常是不可逆的(丢失边信息)且不确定的(节点顺序随意,存在多种合法结果)。为了解决这个问题,我们引入了频率导向的欧拉回路(Frequency-Guided Eulerian Circuit)。
- 可逆性(Reversibility): 我们保证遍历覆盖图的每一条边。对于无向图,我们将每条边视为双向,构建欧拉回路。这确保了从序列可以无损还原出原始图结构(同构意义下)。
- 确定性(Determinism): 图中存在环路和分支,遍历时该往哪走?我们统计数据集中子结构的出现频率,利用这些全局统计信息来指导遍历方向。
图1:Graph Tokenizer 框架概览。(A) 统计子结构频率;(B) 依据频率优先级进行欧拉回路序列化,解决路径歧义;(C) 在序列上应用BPE算法,合并高频共现符号,生成最终Token。
第二步:图上的字节对编码 (BPE for Graphs)
这是本工作的点睛之笔。在序列化之后,我们得到了一个由节点和边标签组成的冗长序列。此时,我们直接应用NLP中标准的BPE(Byte Pair Encoding)算法。
由于第一步已经将高频的图子结构映射为了高频的序列片段,而BPE会贪婪地合并序列中频率最高的相邻符号对,恰好与之对应。那么转换回图的语境,这意味着什么?
节点 C和C相邻出现了?合并!边 C-C和C-C经常一起出现?合并!
最终,一个Token可能代表了一个苯环、一个官能团,甚至更复杂的子图。
通过这种方式,我们将原本离散的原子级描述,压缩成了具有丰富语义的“图词汇(Graph Tokens)”。
03 深度洞察:它到底学到了什么?
为了验证方法的有效性,我们深入分析了模型学到的词表(Vocabulary)。结果令人兴奋——BPE自动发现了化学知识!
在ZINC数据集上,我们发现:
- 压缩率惊人: 序列长度平均缩短了 10倍 以上。
- 语义自涌现: 词表中只有7.1%是单个原子,超过 60% 的Token代表了包含4-9个节点的复杂子结构。
- 化学意义: 模型自动将“苯环”、“甲氧基”、“磺酰基”等化学官能团识别为单一Token。
图2:BPE合并过程可视化。可以看到简单的原子/键被迭代合并,最终形成了具有化学语义的复杂结构(如苯环),直接作为单个Token输入给模型。
这意味着,Transformer看到的不再是杂乱无章的节点列表,而是具有高度概括性的“图语义单元”。
04 实验结果:全面SOTA
我们在14个不同领域的基准数据集上进行了测试,涵盖了分子图、蛋白质、计算机视觉图(COIL-DEL)以及人工合成数据集。我们使用了标准的 BERT-Small 和 GTE-Base 作为骨干网络,没有对模型架构做任何针对图的修改。
1. 性能表现
我们的方法(GT+GTE)在绝大多数数据集上刷新了SOTA,甚至超越了专门设计的Graph Transformer(如Graphormer)和复杂的GNN变体。
图3:主要实验结果。我们的方法在分类和回归任务上均表现出色,特别是在ogbg-molhiv上取得了显著的提升。
2. 效率与扩展性
得益于BPE的高压缩率,我们的序列长度仅为原始序列的10%左右。这使得训练速度比GraphGPS等模型快了 2-3倍。
更重要的是,我们在百万级节点的大规模OGB数据集(ogbn-products等)上验证了方法的扩展性。结果显示,序列化和编码过程具有线性复杂度,处理百万节点仅需秒级时间。
图4:在大规模图上的运行效率分析。得益于线性复杂度的序列化和高效的BPE,该方法具备极强的扩展性。
05 超越分类:图生成的可能性
既然我们将图变成了序列,那么是否可以直接用 GPT 来生成图?
答案是肯定的。在Rebuttal期间,我们将MNIST图像转化为网格图,训练了一个标准的Decoder-only Transformer进行自回归生成。结果显示,模型可以Token-by-Token地生成出连贯的数字结构。
图5:基于Graph Tokenizer的自回归图生成演示。模型可以像写文章一样,逐个Token生成出完整的图结构。
这为Graph GPT、分子生成、药物发现等任务打开了全新的大门——我们不再需要复杂的图生成模型,只需要标准的LLM。
06 总结与展望
Graph Tokenizer 的核心价值在于解耦(Decoupling)。
我们将“图结构的编码”从“模型架构的设计”中剥离了出来。通过一个确定性、可逆且高效的Tokenizer,任何现有的、未来的序列模型(Long-Context Transformers, Mamba等)都可以直接用于图学习任务。
这项工作不仅弥合了图与Transformer之间的鸿沟,也为图基础模型(Graph Foundation Models)的构建提供了一条清晰、可扩展的路径:把图当成一种语言,让模型去读懂它。
本期责任编辑:杨成
本期编辑:赵明宇
北邮 GAMMA Lab 公众号
主编:石川
责任编辑:杨成
编辑:赵明宇
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:北邮 GAMMA Lab 郭泽远 郭泽远《ICLR 2026 | 图词元化:构建图与Transformer的通用接口》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。








评论