文章总结: 本文详细介绍了Spine-Leaf架构在构建万卡级AI智算中心无损网络中的应用。该架构通过扁平化设计实现可预测延迟,利用全互联结构保障高可用性,并支持线性扩展。针对AI训练中GPU通信瓶颈,方案结合RoCEv2、PFC、ECN等技术构建零丢包微秒级网络,将GPU利用率从30%-50%提升至70%-95%。威努特推出的128端口400G交换机搭载自研SONiC系统,为大规模算力集群提供高速互联底座。 综合评分: 85 文章分类: 解决方案,技术标准,云安全,安全建设,网络安全
如何用Spine-Leaf构建万卡集群算力高速
原创
产品与解决方案部 产品与解决方案部
威努特安全网络
2026年6月25日 08:00 北京
在小说阅读器读本章
去阅读
“
Spine-Leaf是当下搭建高性能、高稳定数据中心网络的主流拓扑结构。相比传统CLOS架构,这套两层网络结构部署简单、运维门槛更低,同时拓展能力与适配性拉满。本文将从架构原理、核心特性、落地场景几方面,带大家全面读懂Spine-Leaf架构。
”
01
什么是Spine-Leaf架构
Spine-Leaf架构是一种CLOS架构,该架构命名来自于它的发明者Charles Clos。上世纪50年代,为了解决电话网络爆炸的问题,这名网络工程师提出了该网络架构模型。经过半个多世纪的发展,基于CLOS的网络架构在世界各地的大型数据中心得到了广泛部署,满足了当代智算业务灵活多变的网络需求。
Spine-Leaf架构又名Fabric,是一种用于构建高性能、高可靠性数据中心网络的拓扑结构。Spine-Leaf只有两层交换架构,看起来不同于经典CLOS模型的三层结构,但当我们将CLOS模型从中间层对折,你会发现它也变成了两层的交换结构。
该架构的Spine层和Leaf层之间通过高速链路相互连接,以实现数据的传输和流量控制。每个Leaf交换机都直接连接着Spine交换机,没有中间层级。Leaf交换机直接连接着物理服务器,Leaf交换机之下是独立的二层广播域,当跨Leaf交换机的服务器之间需要通信时,将经过上层的Spine交换机构建的路由实现转发。
02
Spine-Leaf架构的特点
Spine-Leaf架构可以减少网络的复杂性,提高网络的可靠性和性能。分布式的交换架构,可以实现快速的数据传输和流量控制,并且具有高可靠性和可扩展性。
扁平化
在Spine-Leaf架构中,任意跨Leaf的服务器流量都只会经过两跳,三个设备,保证了延迟是可预测的。
高可用性
Spine-Leaf架构中每个Leaf交换机都和每个Spine交换机相连,实现全互联。哪怕一个Spine交换机失效,整体网络并不会全面瘫痪,而只是损失了一些带宽。
简单易于管理
Spine-Leaf架构内部使用的是统一的三层网络和等价多路径路由,可以充分使用所有链路带宽并实现负载均衡。这种设计非常适合与云控制器和其他管理工具相结合,进行统一的配置下发和其他自动化的网络运维管理,减少网络的复杂性和管理难度。
高可扩展性
Spine-Leaf架构具有高度的可扩展性,只要添加一个Spine交换机,就可以扩展所有Leaf交换机的上行带宽。当网络接入规模变大,你也可以很容易地增加一个Leaf交换机,将它连接到所有Spine并做好配置即可。相比传统的接入-汇聚-核心架构优势十分明显。
Spine-Leaf架构广泛应用于数据中心网络中,以提供高性能、高可靠性的数据传输和流量控制。随着物联网的发展,除了大型数据中心,Spine-Leaf架构也会在边缘云发挥自身优势,例如处理大规模接入时让Leaf交换机在接入层进行处理转发,降低将所有流量回传云平台所产生的延迟和产生的集中计算压力。总之,在选择Spine-Leaf架构时,需要考虑网络规模、带宽需求、性能需求和管理需求等因素。
03
为万卡级智算中心打造无损网络底座
大模型训练,现在动不动就是万卡甚至十万卡集群。规模上去了,网络却成了最大的“拖油瓶”。传统的TCP/IP网络,一遇到丢包就得重传,再加上网络动不动就抖动、拥塞,GPU经常得干等着网络把数据同步完,利用率直接掉到30%~50%,算力就这么白白浪费了。
威努特AI智算中心无损网络解决方案:以8192张H200 GPU为例,通过128端口400G交换机组建RoCEv2无损网络+Spine-Leaf网络架构,Leaf交换机128台,Spine交换机64台。这套网络专门为AI训练设计,要解决的就是GPU“吃不饱”的问题。
威努特AI智算中心
无损网络解决方案优势
AI训练里,七成以上的流量都在“聊天”
大模型训练,GPU之间需要频繁交换梯度和参数,像AllReduce、AllGather这些参数同步通信,能占到训练总流量的70%以上。这不是南北向的上网流量,而是东西向的,几乎是每张卡都在跟其他所有卡“聊天”,形成一种全互联(Full Mesh)的模式。
传统网络应付不来这种场面,威努特AI智算中心无损网络解决方案通过PFC(优先级流控制)、ECN(显式拥塞通知)和DCQCN,构建出一个零丢包、时延只有微秒级的无损网络环境,GPU利用率能从30%~50%拉高到70%~95%,训练时间大幅缩短。
Spine-Leaf架构:专治各种“堵车”
如此多GPU同时通信,最怕的就是核心交换机堵死。Spine-Leaf这种CLOS架构的好处是,通过ECMP(等价多路径),在任意两张GPU之间都修了无数条“路”。流量进来,自动分散到各条路上,既不会堵车,带宽还能线性叠加,整个网络接近无阻塞(Non-Blocking)的状态。这也是为什么NVIDIA、Meta、Google、字节、阿里、腾讯这些巨头,不约而同都选了Spine-Leaf作为他们超大规模智算中心的标准架构。
遇到拥塞能“预判”,出了故障能“自愈”
训练中最怕什么?Incast拥塞。这就像千军万马突然都往一个节点挤,比如做梯度聚合、MoE路由聚合的时候。这时候交换机缓存瞬间爆满,GPU只能干等。威努特智算中心无损网络解决方案中,交换机通过ECN+DCQCN能实时感知队列长度,在拥塞真正发生前,就主动通知发送端“慢一点”,把问题消灭在萌芽状态。
另外,训练过程跑起来就是几周甚至几个月,中间断一下可能就得回滚Checkpoint,损失巨大。Spine-Leaf架构天然有多路径冗余,光纤断了、光模块坏了、交换机宕了,流量能自己秒级切换到别的路径,不需要人工干预,确保训练任务能不间断地跑下去。
从千卡到十万卡,扩容就像搭积木
模型参数从百亿涨到千亿、万亿,算力不够了怎么办?Spine-Leaf架构的扩容很简单,新增GPU就同步增加Leaf和Spine交换机,网络容量跟GPU规模一起线性增长。从1024卡到8192卡,再到万卡、十万卡级别,平滑扩展,不用推倒重来。
一张网,把训练、推理、存储全串起来
威努特AI智算中心无损网络解决方案不仅是给训练用。推理集群、分布式存储、向量数据库、AI Agent平台,都可以统一接入这张高速网络,实现计算、存储、网络的一体化协同。
#
04
威努特128x400G QSFP112算力交换机
这款400G数据中心交换机,支持128个400G QSFP112接口,1个千兆管理网口,1个RJ45 console口,1个USB 2.0接口,支持4个模组化电源插槽。
该交换机采用先进硬件架构设计,搭载业界领先的超低时延交换芯片,实现了102.4Tbps的交换容量与76000Mpps的包转发率,其交换机转发时延低至400ns,端到端时延低至1.45μs,充分满足IDC、电力、能源、轨道交通、互联网、运营商、政府、企业、医疗、教育等行业的智算中心和数据中心AI/ML时延敏感型业务的极速需求。
在软件层面,该交换机运行威努特自研的WNT® NOS云原生SONiC网络操作系统。该系统针对业务网络进行了深度优化,集成了RoCE、智能负载均衡及PFC/ECN等无损网络特性,同时提供MC-LAG、VxLAN、EVPN等丰富的数据中心特性,为大规模、高性能的算力互联与业务调度提供了坚实且高效的网络底座。
#
05
总结
当前,以人工智能为核心的新一轮科技革命正深刻改变各行各业,算力网络作为关键基础设施迎来高速发展。威努特将持续致力于数据中心网络技术的研发与应用,携手产业伙伴,为夯实数字经济发展底座、推动“人工智能+”行动落地贡献坚实力量。
点分享
点收藏
点在看
点点赞
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:威努特安全网络 产品与解决方案部 产品与解决方案部《如何用Spine-Leaf构建万卡集群算力高速》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论