2026-03-11 03:10:18 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 该文档介绍了一种名为GraphTokenizer的通用框架，旨在解决图数据难以直接输入Transformer的问题。该方法利用频率导向的欧拉回路实现图结构的可逆序列化，并结合BPE算法将高频子结构压缩为语义Token。实验表明，该方法在14个数据集上达到SOTA，大幅提升训练效率与压缩率，且支持标准GPT进行图生成，为构建图基础模型提供了新路径。 综合评分： 90 文章分类： 其他

cover_image

ICLR 2026 | 图词元化：构建图与Transformer的通用接口

原创

郭泽远郭泽远

北邮 GAMMA Lab

2026年3月10日 10:15 北京

01 背景：当图遇上Transformer

过去几年，Transformer架构（尤其是LLM）在自然语言处理、计算机视觉等领域取得了统治级地位。其成功的核心秘诀之一在于Tokenization（词元化）——将原始数据（如文本、图像Patch）转化为离散的、富有语义的Token序列。

然而，在图（Graph）领域，这一步走得异常艰难。

图数据是非欧几里得结构，没有自然的顺序，且具有排列不变性（Permutation Invariance）。为了将图“喂”给Transformer，学术界主要尝试了两条路径：

魔改架构（Graph Transformers）： 在Attention机制中硬性注入图结构偏置。这使得模型无法直接复用LLM社区的算子优化（如FlashAttention）和预训练权重。
多模态兼容（Moltimodal）： 采用经典的模态融合方案，使用GNN或其他网络架构或序列化转换，之后特殊处理graph数据，进而与LLM的特征嵌入空间对齐。

我们不禁要问：能否设计一种通用的Graph Tokenizer，让标准的、未经修改的Transformer（如BERT、GPT）也能像处理文本一样，高效、精准地处理图数据？

我们的答案是：能，关键在于“如何Tokenize”。

02 核心方法：Graph Tokenizer

我们提出了一种名为 Graph Tokenizer 的通用框架。它的核心思想非常直观：将图视为一种特殊的语言，利用NLP中成熟的BPE算法来提取图中的“词汇”。

整个流程分为两个关键步骤：

第一步：结构导向的可逆序列化 (Structure-Guided Reversible Serialization)

直接将图转为序列（如DFS/BFS）通常是不可逆的（丢失边信息）且不确定的（节点顺序随意，存在多种合法结果）。为了解决这个问题，我们引入了频率导向的欧拉回路（Frequency-Guided Eulerian Circuit）。

可逆性（Reversibility）： 我们保证遍历覆盖图的每一条边。对于无向图，我们将每条边视为双向，构建欧拉回路。这确保了从序列可以无损还原出原始图结构（同构意义下）。
确定性（Determinism）： 图中存在环路和分支，遍历时该往哪走？我们统计数据集中子结构的出现频率，利用这些全局统计信息来指导遍历方向。

图1：Graph Tokenizer 框架概览。(A) 统计子结构频率；(B) 依据频率优先级进行欧拉回路序列化，解决路径歧义；(C) 在序列上应用BPE算法，合并高频共现符号，生成最终Token。

第二步：图上的字节对编码 (BPE for Graphs)

这是本工作的点睛之笔。在序列化之后，我们得到了一个由节点和边标签组成的冗长序列。此时，我们直接应用NLP中标准的BPE（Byte Pair Encoding）算法。

由于第一步已经将高频的图子结构映射为了高频的序列片段，而BPE会贪婪地合并序列中频率最高的相邻符号对，恰好与之对应。那么转换回图的语境，这意味着什么？

节点 C 和 C 相邻出现了？合并！
边 C-C 和 C-C 经常一起出现？合并！

最终，一个Token可能代表了一个苯环、一个官能团，甚至更复杂的子图。

通过这种方式，我们将原本离散的原子级描述，压缩成了具有丰富语义的“图词汇（Graph Tokens）”。

03 深度洞察：它到底学到了什么？

为了验证方法的有效性，我们深入分析了模型学到的词表（Vocabulary）。结果令人兴奋——BPE自动发现了化学知识！

在ZINC数据集上，我们发现：

压缩率惊人： 序列长度平均缩短了 10倍 以上。
语义自涌现： 词表中只有7.1%是单个原子，超过 60% 的Token代表了包含4-9个节点的复杂子结构。
化学意义： 模型自动将“苯环”、“甲氧基”、“磺酰基”等化学官能团识别为单一Token。

图2：BPE合并过程可视化。可以看到简单的原子/键被迭代合并，最终形成了具有化学语义的复杂结构（如苯环），直接作为单个Token输入给模型。

这意味着，Transformer看到的不再是杂乱无章的节点列表，而是具有高度概括性的“图语义单元”。

04 实验结果：全面SOTA

我们在14个不同领域的基准数据集上进行了测试，涵盖了分子图、蛋白质、计算机视觉图（COIL-DEL）以及人工合成数据集。我们使用了标准的 BERT-Small 和 GTE-Base 作为骨干网络，没有对模型架构做任何针对图的修改。

1. 性能表现

我们的方法（GT+GTE）在绝大多数数据集上刷新了SOTA，甚至超越了专门设计的Graph Transformer（如Graphormer）和复杂的GNN变体。

图3：主要实验结果。我们的方法在分类和回归任务上均表现出色，特别是在ogbg-molhiv上取得了显著的提升。

2. 效率与扩展性

得益于BPE的高压缩率，我们的序列长度仅为原始序列的10%左右。这使得训练速度比GraphGPS等模型快了 2-3倍。

更重要的是，我们在百万级节点的大规模OGB数据集（ogbn-products等）上验证了方法的扩展性。结果显示，序列化和编码过程具有线性复杂度，处理百万节点仅需秒级时间。

图4：在大规模图上的运行效率分析。得益于线性复杂度的序列化和高效的BPE，该方法具备极强的扩展性。

05 超越分类：图生成的可能性

既然我们将图变成了序列，那么是否可以直接用 GPT 来生成图？

答案是肯定的。在Rebuttal期间，我们将MNIST图像转化为网格图，训练了一个标准的Decoder-only Transformer进行自回归生成。结果显示，模型可以Token-by-Token地生成出连贯的数字结构。

图5：基于Graph Tokenizer的自回归图生成演示。模型可以像写文章一样，逐个Token生成出完整的图结构。

这为Graph GPT、分子生成、药物发现等任务打开了全新的大门——我们不再需要复杂的图生成模型，只需要标准的LLM。

06 总结与展望

Graph Tokenizer 的核心价值在于解耦（Decoupling）。

我们将“图结构的编码”从“模型架构的设计”中剥离了出来。通过一个确定性、可逆且高效的Tokenizer，任何现有的、未来的序列模型（Long-Context Transformers, Mamba等）都可以直接用于图学习任务。

这项工作不仅弥合了图与Transformer之间的鸿沟，也为图基础模型（Graph Foundation Models）的构建提供了一条清晰、可扩展的路径：把图当成一种语言，让模型去读懂它。

本期责任编辑：杨成

本期编辑：赵明宇

北邮 GAMMA Lab 公众号

主编：石川

责任编辑：杨成

编辑：赵明宇

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：北邮 GAMMA Lab 郭泽远郭泽远《ICLR 2026 | 图词元化：构建图与Transformer的通用接口》