文章总结: 国产AI模型跻身世界一梯队,但算力硬件仍落后两年。软硬件协同与训练能力是短板,建议通过TileLang等编程模型创新及MEPipe系统优化弥补不足,构建自主算子生态,推动全开源与低成本训练体系,实现智能计算领域的弯道超车。 综合评分: 88 文章分类: AI安全,解决方案
【实验室】专家观点 | 陈文光:国产智能计算软件的发展现状、挑战与前景
中国软件评测中心
2026年1月15日 16:57 北京
编者按:
基础软件质量控制与技术评价工业和信息化部重点实验室(以下简称“实验室”)作为首批工信部认定的重点实验室之一,始终致力于基础软件产业创新发展研究、关键技术突破及公共服务体系构建,服务国家重大专项及基础软件重点产业链。为强化实验室技术引领与产业赋能作用,现梳理其2025年度学术委员会专家观点形成系列内容,为行业提供前瞻性思考。
以下文章基于清华大学教授、实验室学术委员会委员陈文光的《国产智能计算软件的发展与思考》专题发言整理而成。文章指出,国产AI模型已跻身世界第一梯队,但算力硬件仍落后国际先进水平2年以上,软硬件协同与训练能力是当前主要短板。通过软件创新弥补硬件不足、构建自主算子生态、推动全开源训练体系,是国产智能计算实现突破的关键。
清华大学教授、实验室学术委员会委员陈文光
一
国产智能计算的发展现状
1.1 国产大模型已进入全球第一梯队
以DeepSeek、Qwen、GLM、Kimi等为代表的国产大模型,在多项国际评测中表现优异,已进入全球模型性能的第一梯队。更值得关注的是,多数国产模型选择开源发布,正在深刻影响全球AI开源生态,为中国在AI软件层面赢得了话语权与生态影响力。
1.2 国产算力硬件取得系统级进展,但单芯片能力仍存差距
在算力基础设施方面,我国已建成多个万卡级国产集群,并规划于2026年前建成2万卡级的昇腾910C集群与10万卡级的海光集群,系统规模逐步追赶国际先进水平。然而,受限于国内半导体工艺,单芯片峰值算力与软硬件协同能力仍落后英伟达等国际领先企业约2年以上。例如,昇腾910C仍未支持FP8精度格式,限制了其在混合精度训练中的竞争力。
1.3 国产算力以推理为主,训练能力尚未成熟
目前,国产算力主要应用于模型推理场景,而大模型训练仍高度依赖英伟达H/B系列GPU。这一局面主要源于国产硬件在算子正确性、数值精度对齐、长期训练稳定性等方面尚存不足,多次训练迭代中误差易积累,影响模型最终质量。此外,英伟达CUDA生态成熟,便于快速复现与跟踪国际最新研究成果,进一步强化了其训练市场的主导地位。
二
面临的核心技术挑战
2.1 软硬件协同不足,生态壁垒显著
国产算力硬件在指令集、内存架构、通信机制等方面与英伟达存在差异,导致CUDA生态下的丰富软件资源无法直接移植。虽然国内在推理系统软件(如VLLM、SGLang等)方面已有较好积累,并涌现出K-Transformer、Mooncake、Chitu等优秀推理框架,但训练所需的底层算子库、编译器、通信库等仍处于追赶阶段。
2.2 高性能算子库研发路径尚不明确
是否需要完全兼容CUDA生态,是国产算力软件发展的战略选择。对于纯AI任务(如大语言模型),新兴的算子开发语言如Triton、TileLang等可能更为合适;而对于AI与科学计算融合场景(如AI4Science),则需要更丰富的精度支持与CPU/GPU混合编程能力,此时CUDA层级的兼容性显得更为重要。
2.3 硬件限制下的系统优化难题
国产AI加速器普遍存在显存容量小、互联带宽低、单卡算力有限等问题。如何通过软件与系统级优化,在资源受限的条件下实现高效的大模型训练,是当前亟待攻克的技术难关。这涉及内存优化、通信调度、并行策略等多个层面的协同创新。
三
软件创新的关键突破方向
3.1 编程模型与编译技术的进步
近年来,国产研究团队在算子编程模型方面取得了一系列突破:
-
TileLang:提出了一种基于分块的可组合张量编程模型,支持线程绑定、内存布局、张量化等调度原语,在表达复杂张量运算时比Triton更灵活,性能与代码效率均有优势。
-
Mirage:通过更简洁的表达与更强大的编译器优化,在RMSNorm等算子中自动发现并利用运算交换性,显著减少了中间内存开销,性能超越Triton。
-
TVM与自动调度:尽管TVM在复杂张量程序表达上存在局限,但其张量表达式与调度分离的思想,为自动算子优化提供了重要基础。结合TASO等图优化框架,有望实现从计算流中自动发现类似FlashAttention的高效实现。
3.2 通过系统级优化弥补硬件短板
针对显存小、通信弱的问题,研究团队提出了多种训练调度与并行策略:
- MEPipe(内存高效流水并行):通过虚拟流水并行与序列并行相结合,在降低激活值内存占用的同时保持较低的气泡比例,使在显存有限的消费级显卡(如RTX 4090)上进行大模型训练成为可能。
- 动态权重梯度调度:将权重梯度计算拆分为独立的矩阵乘法任务并进行动态调度,进一步减少训练过程中的空闲时间。
实验表明,采用MEPipe等优化方法后,使用成本更低的显卡集群(如64卡RTX 4090)可达到32卡A100集群约70%的性能,而成本仅为其40%,为普及大模型训练提供了可行路径。
3.3 推动全开源训练体系,降低技术门槛
为打破少数机构对大模型训练资源的垄断,构建健康开放的AI生态,推动全开源的大模型训练过程(包括数据、训练代码、训练系统)至关重要。例如,“脑海-开元”项目基于国产昇腾910A芯片训练出2B参数模型,性能接近Qwen2-1.5B,展示了国产软硬件协同训练的可能。此外,在消费级显卡集群上开展低成本训练也取得进展:使用32块RTX 5090显卡,以约6.4万元成本、2个月时间可完成1.5B模型的BF16训练,模型FLOPs利用率(MFU)达66%。未来支持FP8训练后,成本有望进一步降低30%以上。
四
发展建议与未来展望
4.1 构建自主的算子开发生态
应集中力量研发适用于国产硬件的高性能算子库,不必强求与CUDA完全兼容,而应面向AI与科学计算的不同场景,发展如TileLang、Mirage等更高效、更易用的编程模型与编译工具链,形成自主的软件栈生态。
4.2 加强软硬件协同设计与系统创新
鼓励芯片设计、系统软件、框架开发等环节的深度融合,通过硬件感知的调度、内存管理、通信优化等技术,系统性提升国产算力在训练任务中的可用性与效率。尤其在万卡级集群即将部署的背景下,大规模分布式训练系统的稳定与高效运行至关重要。
4.3 推动开源开放与产学研协作
继续鼓励模型、数据、训练方法的开源,降低大模型研发门槛。通过设立开源项目、举办训练挑战赛、共享优化工具等方式,吸引更多高校、中小企业参与国产算力平台的算法开发与应用部署,逐步培育健康多元的国产AI生态。
4.4 探索低成本、普惠化的训练路径
结合消费级显卡集群与内存优化技术,发展适合中小企业与研究机构的低成本训练方案。这不仅有助于缓解算力紧缺,也能促进AI创新在更广泛领域的落地,推动AI技术从“巨头游戏”走向“普惠工具”。
五
结论
国产智能计算软件正处于从“可用”向“好用”、从“跟跑”到“并跑”的关键转型期。尽管在算力硬件性能、训练生态成熟度方面仍面临挑战,但通过软件创新、系统优化与生态共建,完全有可能在部分场景实现弯道超车。当前,我们应抓住国产模型已跻身世界前列的有利时机,以软件为桥梁,以系统为支撑,以开源为纽带,逐步构建起自主创新、高效普惠的智能计算体系,为中国在全球AI竞争中赢得更多主动权与发展空间。
相关推荐:
【实验室】专家观点 | 张云泉:算力经济发展的趋势分析与展望
【会议活动】基础软件质量控制与技术评价工业和信息化部重点实验室2025年度学术委员会会议在京隆重召开
文字 | 信发事业部
编辑 | 品牌推广室
编审 | 大客户部
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:中国软件评测中心 《【实验室】专家观点 | 陈文光:国产智能计算软件的发展现状、挑战与前景》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论