当AI智能体开始”记忆过载”,DeepSeek祭出了这个绝招

admin 2026-03-17 22:35:50 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: DeepSeek联合清华北大发布DualPath架构,旨在解决AI智能体推理中KV-Cache加载造成的存储带宽瓶颈。该方案利用解码引擎闲置网卡构建双路径传输,在不增加硬件的前提下,将推理吞吐量提升近两倍,为突破大模型推理I/O墙提供了极具价值的工程参考。 综合评分: 85 文章分类: AI安全,解决方案


cover_image

当AI智能体开始”记忆过载”,DeepSeek祭出了这个绝招

原创

商密君 商密君

商密君

2026年2月27日 20:15 广东

已关注

关注

重播 分享 赞

关闭

观看更多

更多

退出全屏

切换到竖屏全屏退出全屏

商密君已关注

分享视频

,时长04:44

0/0

00:00/04:44

切换到横屏模式

继续播放

[ ]

进度条,百分之0

播放

00:00

/

04:44

04:44

倍速

全屏

倍速播放中

0.5倍 0.75倍 1.0倍 1.5倍 2.0倍

超清 流畅

 您的浏览器不支持 video 标签

继续观看

当AI智能体开始”记忆过载”,DeepSeek祭出了这个绝招

观看更多

转载

,

当AI智能体开始”记忆过载”,DeepSeek祭出了这个绝招

商密君已关注

分享点赞在看

已同步到看一看写下你的评论

视频详情

先说一件让工程师头疼的事。

你有没有注意到,现在的AI助手越来越“记得住事”了?哪怕对话进行了三十轮,它依然清晰记得最初的需求;让它编写代码,它能串联起数万个Token的上下文;像Claude Code、Cursor这类编程Agent,甚至能全程跟踪复杂项目的历史演变。

支撑这一能力的幕后功臣,是一项名为KV-Cache(键值缓存)的关键技术。不妨将其视作AI的“工作记忆”,每一轮对话产生的中间计算结果都暂存于此,下一轮直接调用,无需重复计算,从而保障了高效运行。

然而隐患随之而来。随着AI智能体对话长度增加、轮次累积,这份“工作记忆”急剧膨胀。处理长上下文任务时,KV-Cache体积动辄达到几十GB。

每当新一轮对话开启,系统必须将海量数据从硬盘搬运至内存。正是这个搬运过程,成为了制约AI推理系统速度的最大瓶颈。问题不在于GPU计算不够快,而在于数据根本喂不进去。

发现被忽视的资源“死角”

2月25日,DeepSeek联合清华大学、北京大学计算机学院,在arXiv上发表了一篇题为《DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference》的论文。

该研究由13位学者共同完成,基于DeepSeek自研推理框架,整合FlashMLA、DeepGEMM、DeepEP等内核组件,并以3FS分布式存储为底座,直接在工业级生产环境中验证了新方案的有效性。

研究团队洞察到一个关键问题:现代大规模推理系统普遍采用“预填充-解码分离”架构。其中预填充引擎负责理解问题并消化上下文,解码引擎则负责逐Token生成答案。

这两套机器各自配备独立网卡。在传统模式下,加载KV-Cache的任务完全由预填充引擎承担,导致其存储网卡负载爆满,而解码引擎的网卡却几乎处于闲置状态。这种资源分配的严重不对称,极大地限制了系统整体吞吐量。

这就好比厨房里有两条生产线:备料线和炒菜线。若所有食材仅通过备料线的大门运送,门口必然拥堵不堪;而炒菜线旁明明敞开着另一扇大门,却从未被利用。DeepSeek团队正是看到了这扇被忽略的“空门”。

DualPath:开辟第二条高速路

DualPath的核心思路简洁而有力:让解码引擎那闲置的网卡也参与到KV-Cache的加载工作中。

该方案构建了双路径模型。第一条是传统路径,数据直接从存储流向预填充引擎;第二条是新增路径,数据先从存储读入解码引擎的缓冲池,随后通过RDMA高速计算网络传输给预填充引擎。

或许会有疑问:绕道一圈,难道不会更慢?关键在于当前的智能体应用场景。此类场景对话轮次多、上下文长,KV-Cache命中率通常高达95%以上,意味着每轮对话都需要搬运大量旧记忆。

传统方式将所有压力集中于预填充网卡,而新增路径成功将这部分流量分流至解码侧的闲置网卡,总带宽得以提升,堵塞自然缓解。

更为精妙的是,新增路径行走的是计算网络而非存储网络。这条路径天然避开了网络拥塞,且不会干扰对延迟敏感的模型执行通信。两条路径的流量互不干扰,宛如行驶在各自的高速公路上。

此外系统还配备全局调度器,实时决策每个请求的路径选择:流量较小时走传统路径以省事,流量激增时开启新增路径进行分流,实现动态平衡。

系统架构与显著成效

DualPath推理系统由三个核心模块协同工作。推理引擎严格区分预填充和解码功能;流量管理器负责GPU显存与主机内存间的拷贝、跨引擎传输以及存储网卡读写;中央调度器作为大脑,实时决策请求路径,最大化全局带宽利用率。

整个实现仅需约5000行代码改动,叠加在DeepSeek原有推理框架之上。工程量虽不算庞大,但设计思路极具创新性。

实测结果令人振奋。在DeepSeek 27B、DeepSeek 660B及Qwen 32B三款模型上,使用真实生产级智能体工作负载进行评估,离线推理吞吐量最高提升1.87倍,在线服务吞吐量平均提升1.96倍,且完全符合服务等级目标。

换言之,在不增加任何GPU显卡、不升级存储硬件的前提下,仅通过重新规划数据流向,便实现了接近两倍的处理速度。这才是真正的软件红利。

为何此举意义重大?

当前AI正经历从聊天工具向自主智能体演进的关键节点。无论是Claude Code管理整个代码库,Manus完成复杂研究任务,还是各类Agent自主规划并执行多步骤工作流,这些场景均具备一个共同特征:极长的上下文与极多的对话轮次。而这恰恰是KV-Cache I/O压力最为集中的领域。

过去几年,AI领域倾注大量精力于让模型更强,追求更大的参数量、更优质的训练数据及更聪明的推理策略。随着模型能力日趋成熟,推理系统的效率已成为下一个核心战场:同样的模型,谁能以更快速度、更低成本运行,谁便拥有更强的商业竞争力。

DualPath直击智能体时代推理系统中的一个具体痛点。其意义不仅在于一篇技术论文,更像是一份工程蓝图。

它证明通过重新思考数据加载路径,能有效突破大模型推理的I/O墙,成功利用原本浪费的解码引擎I/O带宽,在不增加硬件成本的前提下,显著提升智能体LLM推理系统的效率。

结语

值得注意的是,DeepSeek选择在外界高度关注V4 Lite信息泄露的时间节点,悄然发布了这篇技术论文。没有发布会,没有营销炒作,直接投递至arXiv。这种风格颇具DeepSeek特色,技术本身就是最好的公关。

联合清华、北大发布这样一篇源自生产系统的工程论文,再次印证了中国顶尖高校与头部AI公司之间的产学研协作,正在产出实打实的系统级创新,而非仅仅停留在漂亮的Benchmark数字上。

KV-Cache的带宽墙或许只是智能体时代推理挑战的冰山一角,但能将冰山一角凿开一个两倍的口子,已属非凡成就。

编辑:陈十九

审核:商密君

征文启事

大家好,为了更好地促进同业间学术交流,商密君现开启征文活动,只要你对商用密码、网络安全、数据加密等有自己的独到见解和想法,都可以积极向商密君投稿,商密君一定将您的声音传递给更多的人。

来源:商密君

注:内容均来源于互联网,版权归作者所有,如有侵权,请联系告知,我们将尽快处理。

点分享

点点赞

点在看


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:商密君 商密君 商密君《当AI智能体开始”记忆过载”,DeepSeek祭出了这个绝招》

新能源汽车数据库 网络安全文章

新能源汽车数据库

文章总结: 该文档是一份新能源汽车销量数据库资料,内容涵盖欧洲及中国新能源汽车销量数据,包括中汽协与乘联会统计口径,以及特斯拉中国的销售情况。文档主要由图表图片
评论:0   参与:  0