2026-03-17 22:35:50 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： DeepSeek联合清华北大发布DualPath架构，旨在解决AI智能体推理中KV-Cache加载造成的存储带宽瓶颈。该方案利用解码引擎闲置网卡构建双路径传输，在不增加硬件的前提下，将推理吞吐量提升近两倍，为突破大模型推理I/O墙提供了极具价值的工程参考。 综合评分： 85 文章分类： AI安全,解决方案

cover_image

当AI智能体开始”记忆过载”，DeepSeek祭出了这个绝招

原创

商密君商密君

商密君

2026年2月27日 20:15 广东

已关注

关注

重播分享赞

关闭

观看更多

退出全屏

切换到竖屏全屏退出全屏

商密君已关注

分享视频

，时长04:44

0/0

00:00/04:44

切换到横屏模式

继续播放

[ ]

进度条，百分之0

播放

00:00

04:44

倍速

全屏

倍速播放中

0.5倍 0.75倍 1.0倍 1.5倍 2.0倍

超清流畅

您的浏览器不支持 video 标签

继续观看

当AI智能体开始”记忆过载”，DeepSeek祭出了这个绝招

观看更多

转载

当AI智能体开始”记忆过载”，DeepSeek祭出了这个绝招

商密君已关注

分享点赞在看

已同步到看一看写下你的评论

视频详情

先说一件让工程师头疼的事。

你有没有注意到，现在的AI助手越来越“记得住事”了？哪怕对话进行了三十轮，它依然清晰记得最初的需求；让它编写代码，它能串联起数万个Token的上下文；像Claude Code、Cursor这类编程Agent，甚至能全程跟踪复杂项目的历史演变。

支撑这一能力的幕后功臣，是一项名为KV-Cache（键值缓存）的关键技术。不妨将其视作AI的“工作记忆”，每一轮对话产生的中间计算结果都暂存于此，下一轮直接调用，无需重复计算，从而保障了高效运行。

然而隐患随之而来。随着AI智能体对话长度增加、轮次累积，这份“工作记忆”急剧膨胀。处理长上下文任务时，KV-Cache体积动辄达到几十GB。

每当新一轮对话开启，系统必须将海量数据从硬盘搬运至内存。正是这个搬运过程，成为了制约AI推理系统速度的最大瓶颈。问题不在于GPU计算不够快，而在于数据根本喂不进去。

发现被忽视的资源“死角”

2月25日，DeepSeek联合清华大学、北京大学计算机学院，在arXiv上发表了一篇题为《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》的论文。

该研究由13位学者共同完成，基于DeepSeek自研推理框架，整合FlashMLA、DeepGEMM、DeepEP等内核组件，并以3FS分布式存储为底座，直接在工业级生产环境中验证了新方案的有效性。

研究团队洞察到一个关键问题：现代大规模推理系统普遍采用“预填充-解码分离”架构。其中预填充引擎负责理解问题并消化上下文，解码引擎则负责逐Token生成答案。

这两套机器各自配备独立网卡。在传统模式下，加载KV-Cache的任务完全由预填充引擎承担，导致其存储网卡负载爆满，而解码引擎的网卡却几乎处于闲置状态。这种资源分配的严重不对称，极大地限制了系统整体吞吐量。

这就好比厨房里有两条生产线：备料线和炒菜线。若所有食材仅通过备料线的大门运送，门口必然拥堵不堪；而炒菜线旁明明敞开着另一扇大门，却从未被利用。DeepSeek团队正是看到了这扇被忽略的“空门”。

DualPath：开辟第二条高速路

DualPath的核心思路简洁而有力：让解码引擎那闲置的网卡也参与到KV-Cache的加载工作中。

该方案构建了双路径模型。第一条是传统路径，数据直接从存储流向预填充引擎；第二条是新增路径，数据先从存储读入解码引擎的缓冲池，随后通过RDMA高速计算网络传输给预填充引擎。

或许会有疑问：绕道一圈，难道不会更慢？关键在于当前的智能体应用场景。此类场景对话轮次多、上下文长，KV-Cache命中率通常高达95%以上，意味着每轮对话都需要搬运大量旧记忆。

传统方式将所有压力集中于预填充网卡，而新增路径成功将这部分流量分流至解码侧的闲置网卡，总带宽得以提升，堵塞自然缓解。

更为精妙的是，新增路径行走的是计算网络而非存储网络。这条路径天然避开了网络拥塞，且不会干扰对延迟敏感的模型执行通信。两条路径的流量互不干扰，宛如行驶在各自的高速公路上。

此外系统还配备全局调度器，实时决策每个请求的路径选择：流量较小时走传统路径以省事，流量激增时开启新增路径进行分流，实现动态平衡。

系统架构与显著成效

DualPath推理系统由三个核心模块协同工作。推理引擎严格区分预填充和解码功能；流量管理器负责GPU显存与主机内存间的拷贝、跨引擎传输以及存储网卡读写；中央调度器作为大脑，实时决策请求路径，最大化全局带宽利用率。

整个实现仅需约5000行代码改动，叠加在DeepSeek原有推理框架之上。工程量虽不算庞大，但设计思路极具创新性。

实测结果令人振奋。在DeepSeek 27B、DeepSeek 660B及Qwen 32B三款模型上，使用真实生产级智能体工作负载进行评估，离线推理吞吐量最高提升1.87倍，在线服务吞吐量平均提升1.96倍，且完全符合服务等级目标。

换言之，在不增加任何GPU显卡、不升级存储硬件的前提下，仅通过重新规划数据流向，便实现了接近两倍的处理速度。这才是真正的软件红利。

为何此举意义重大？

当前AI正经历从聊天工具向自主智能体演进的关键节点。无论是Claude Code管理整个代码库，Manus完成复杂研究任务，还是各类Agent自主规划并执行多步骤工作流，这些场景均具备一个共同特征：极长的上下文与极多的对话轮次。而这恰恰是KV-Cache I/O压力最为集中的领域。

过去几年，AI领域倾注大量精力于让模型更强，追求更大的参数量、更优质的训练数据及更聪明的推理策略。随着模型能力日趋成熟，推理系统的效率已成为下一个核心战场：同样的模型，谁能以更快速度、更低成本运行，谁便拥有更强的商业竞争力。

DualPath直击智能体时代推理系统中的一个具体痛点。其意义不仅在于一篇技术论文，更像是一份工程蓝图。

它证明通过重新思考数据加载路径，能有效突破大模型推理的I/O墙，成功利用原本浪费的解码引擎I/O带宽，在不增加硬件成本的前提下，显著提升智能体LLM推理系统的效率。

结语

值得注意的是，DeepSeek选择在外界高度关注V4 Lite信息泄露的时间节点，悄然发布了这篇技术论文。没有发布会，没有营销炒作，直接投递至arXiv。这种风格颇具DeepSeek特色，技术本身就是最好的公关。

联合清华、北大发布这样一篇源自生产系统的工程论文，再次印证了中国顶尖高校与头部AI公司之间的产学研协作，正在产出实打实的系统级创新，而非仅仅停留在漂亮的Benchmark数字上。

KV-Cache的带宽墙或许只是智能体时代推理挑战的冰山一角，但能将冰山一角凿开一个两倍的口子，已属非凡成就。

编辑：陈十九

审核：商密君

征文启事

大家好，为了更好地促进同业间学术交流，商密君现开启征文活动，只要你对商用密码、网络安全、数据加密等有自己的独到见解和想法，都可以积极向商密君投稿，商密君一定将您的声音传递给更多的人。

来源：商密君

注：内容均来源于互联网，版权归作者所有，如有侵权，请联系告知，我们将尽快处理。

点分享

点点赞

点在看

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：商密君商密君商密君《当AI智能体开始”记忆过载”，DeepSeek祭出了这个绝招》