2026-01-17 01:55:03 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 国产AI模型跻身世界一梯队，但算力硬件仍落后两年。软硬件协同与训练能力是短板，建议通过TileLang等编程模型创新及MEPipe系统优化弥补不足，构建自主算子生态，推动全开源与低成本训练体系，实现智能计算领域的弯道超车。 综合评分： 88 文章分类： AI安全,解决方案

cover_image

【实验室】专家观点 | 陈文光：国产智能计算软件的发展现状、挑战与前景

中国软件评测中心

2026年1月15日 16:57 北京

编者按：

基础软件质量控制与技术评价工业和信息化部重点实验室（以下简称“实验室”）作为首批工信部认定的重点实验室之一，始终致力于基础软件产业创新发展研究、关键技术突破及公共服务体系构建，服务国家重大专项及基础软件重点产业链。为强化实验室技术引领与产业赋能作用，现梳理其2025年度学术委员会专家观点形成系列内容，为行业提供前瞻性思考。

以下文章基于清华大学教授、实验室学术委员会委员陈文光的《国产智能计算软件的发展与思考》专题发言整理而成。文章指出，国产AI模型已跻身世界第一梯队，但算力硬件仍落后国际先进水平2年以上，软硬件协同与训练能力是当前主要短板。通过软件创新弥补硬件不足、构建自主算子生态、推动全开源训练体系，是国产智能计算实现突破的关键。

清华大学教授、实验室学术委员会委员陈文光

一

国产智能计算的发展现状

1.1 国产大模型已进入全球第一梯队

以DeepSeek、Qwen、GLM、Kimi等为代表的国产大模型，在多项国际评测中表现优异，已进入全球模型性能的第一梯队。更值得关注的是，多数国产模型选择开源发布，正在深刻影响全球AI开源生态，为中国在AI软件层面赢得了话语权与生态影响力。

1.2 国产算力硬件取得系统级进展，但单芯片能力仍存差距

在算力基础设施方面，我国已建成多个万卡级国产集群，并规划于2026年前建成2万卡级的昇腾910C集群与10万卡级的海光集群，系统规模逐步追赶国际先进水平。然而，受限于国内半导体工艺，单芯片峰值算力与软硬件协同能力仍落后英伟达等国际领先企业约2年以上。例如，昇腾910C仍未支持FP8精度格式，限制了其在混合精度训练中的竞争力。

1.3 国产算力以推理为主，训练能力尚未成熟

目前，国产算力主要应用于模型推理场景，而大模型训练仍高度依赖英伟达H/B系列GPU。这一局面主要源于国产硬件在算子正确性、数值精度对齐、长期训练稳定性等方面尚存不足，多次训练迭代中误差易积累，影响模型最终质量。此外，英伟达CUDA生态成熟，便于快速复现与跟踪国际最新研究成果，进一步强化了其训练市场的主导地位。

二

面临的核心技术挑战

2.1 软硬件协同不足，生态壁垒显著

国产算力硬件在指令集、内存架构、通信机制等方面与英伟达存在差异，导致CUDA生态下的丰富软件资源无法直接移植。虽然国内在推理系统软件（如VLLM、SGLang等）方面已有较好积累，并涌现出K-Transformer、Mooncake、Chitu等优秀推理框架，但训练所需的底层算子库、编译器、通信库等仍处于追赶阶段。

2.2 高性能算子库研发路径尚不明确

是否需要完全兼容CUDA生态，是国产算力软件发展的战略选择。对于纯AI任务（如大语言模型），新兴的算子开发语言如Triton、TileLang等可能更为合适；而对于AI与科学计算融合场景（如AI4Science），则需要更丰富的精度支持与CPU/GPU混合编程能力，此时CUDA层级的兼容性显得更为重要。

2.3 硬件限制下的系统优化难题

国产AI加速器普遍存在显存容量小、互联带宽低、单卡算力有限等问题。如何通过软件与系统级优化，在资源受限的条件下实现高效的大模型训练，是当前亟待攻克的技术难关。这涉及内存优化、通信调度、并行策略等多个层面的协同创新。

三

软件创新的关键突破方向

3.1 编程模型与编译技术的进步

近年来，国产研究团队在算子编程模型方面取得了一系列突破：

TileLang：提出了一种基于分块的可组合张量编程模型，支持线程绑定、内存布局、张量化等调度原语，在表达复杂张量运算时比Triton更灵活，性能与代码效率均有优势。
Mirage：通过更简洁的表达与更强大的编译器优化，在RMSNorm等算子中自动发现并利用运算交换性，显著减少了中间内存开销，性能超越Triton。
TVM与自动调度：尽管TVM在复杂张量程序表达上存在局限，但其张量表达式与调度分离的思想，为自动算子优化提供了重要基础。结合TASO等图优化框架，有望实现从计算流中自动发现类似FlashAttention的高效实现。

3.2 通过系统级优化弥补硬件短板

针对显存小、通信弱的问题，研究团队提出了多种训练调度与并行策略：

MEPipe（内存高效流水并行）：通过虚拟流水并行与序列并行相结合，在降低激活值内存占用的同时保持较低的气泡比例，使在显存有限的消费级显卡（如RTX 4090）上进行大模型训练成为可能。
动态权重梯度调度：将权重梯度计算拆分为独立的矩阵乘法任务并进行动态调度，进一步减少训练过程中的空闲时间。

实验表明，采用MEPipe等优化方法后，使用成本更低的显卡集群（如64卡RTX 4090）可达到32卡A100集群约70%的性能，而成本仅为其40%，为普及大模型训练提供了可行路径。

3.3 推动全开源训练体系，降低技术门槛

为打破少数机构对大模型训练资源的垄断，构建健康开放的AI生态，推动全开源的大模型训练过程（包括数据、训练代码、训练系统）至关重要。例如，“脑海-开元”项目基于国产昇腾910A芯片训练出2B参数模型，性能接近Qwen2-1.5B，展示了国产软硬件协同训练的可能。此外，在消费级显卡集群上开展低成本训练也取得进展：使用32块RTX 5090显卡，以约6.4万元成本、2个月时间可完成1.5B模型的BF16训练，模型FLOPs利用率（MFU）达66%。未来支持FP8训练后，成本有望进一步降低30%以上。

四

发展建议与未来展望

4.1 构建自主的算子开发生态

应集中力量研发适用于国产硬件的高性能算子库，不必强求与CUDA完全兼容，而应面向AI与科学计算的不同场景，发展如TileLang、Mirage等更高效、更易用的编程模型与编译工具链，形成自主的软件栈生态。

4.2 加强软硬件协同设计与系统创新

鼓励芯片设计、系统软件、框架开发等环节的深度融合，通过硬件感知的调度、内存管理、通信优化等技术，系统性提升国产算力在训练任务中的可用性与效率。尤其在万卡级集群即将部署的背景下，大规模分布式训练系统的稳定与高效运行至关重要。

4.3 推动开源开放与产学研协作

继续鼓励模型、数据、训练方法的开源，降低大模型研发门槛。通过设立开源项目、举办训练挑战赛、共享优化工具等方式，吸引更多高校、中小企业参与国产算力平台的算法开发与应用部署，逐步培育健康多元的国产AI生态。

4.4 探索低成本、普惠化的训练路径

结合消费级显卡集群与内存优化技术，发展适合中小企业与研究机构的低成本训练方案。这不仅有助于缓解算力紧缺，也能促进AI创新在更广泛领域的落地，推动AI技术从“巨头游戏”走向“普惠工具”。

五

结论

国产智能计算软件正处于从“可用”向“好用”、从“跟跑”到“并跑”的关键转型期。尽管在算力硬件性能、训练生态成熟度方面仍面临挑战，但通过软件创新、系统优化与生态共建，完全有可能在部分场景实现弯道超车。当前，我们应抓住国产模型已跻身世界前列的有利时机，以软件为桥梁，以系统为支撑，以开源为纽带，逐步构建起自主创新、高效普惠的智能计算体系，为中国在全球AI竞争中赢得更多主动权与发展空间。