2.DFlash–研究人员找到了将大语言模型加速8.5倍的方法?

admin 2026-05-22 02:31:40 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: DFlash是一种基于块扩散模型的投机解码技术,通过并行预测令牌取代传统自回归草稿模型,将大语言模型推理速度提升至415令牌/秒(加速比8.5倍)且保证输出质量无损。该技术已集成到vLLM、SGLang和Transformers框架,相关草稿模型在HuggingFace发布。 综合评分: 85 文章分类: AI安全,解决方案,技术标准,安全工具,其他


cover_image

2.DFlash – 研究人员找到了将大语言模型加速 8.5 倍的方法?

原创

Esn Arsenal Esn Arsenal

Esn技术社区

2026年5月13日 18:05 河南

在小说阅读器读本章

去阅读

DFlash是一种轻量级块扩散模型,专为推测性解码而设计。它能够实现高效、高质量的并行绘图。

投机解码(Speculative Decoding) 是一种相当有效的方法,可解决传统大语言模型推理中的“单令牌(逐词)生成”瓶颈。

其工作流程是:先由一个小型草稿模型生成多个后续令牌,再由大型目标模型通过一次前向传播并行验证它们。

如果某个位置的令牌被验证为错误,则保留该位置之前的所有正确令牌,并从此处继续生成。该方法的最终输出质量绝不会劣于传统解码方式。

然而,当前投机解码中使用的草稿模型仍然是逐个预测令牌的。这导致草稿生成阶段本身成为了新的瓶颈,使得实际场景中的加速比通常只能达到 2–3 倍。

DFlash 是一项新技术,它用轻量级的**块扩散模型(Block Diffusion Model)**取代了自回归草稿模型,能够在一个前向传播中并行预测所有令牌。

无论投机预测的令牌数量有多少,草稿生成的计算开销都保持恒定。

此外,草稿模型会接收来自目标模型多个层的隐藏特征,并将这些特征注入到草稿生成的每一层中。得益于这种上下文信息的注入,其预测精度相比无此机制的模型有了显著提升。

已关注

关注

重播 分享 赞

关闭

观看更多

更多

退出全屏

切换到竖屏全屏退出全屏

Esn技术社区已关注

分享视频

,时长00:26

0/0

00:00/00:26

切换到横屏模式

继续播放

[ ]

进度条,百分之0

播放

00:00

/

00:26

00:26

倍速

全屏

倍速播放中

0.5倍 0.75倍 1.0倍 1.5倍 2.0倍

超清 流畅

 您的浏览器不支持 video 标签

继续观看

2.DFlash – 研究人员找到了将大语言模型加速 8.5 倍的方法?

观看更多

原创

,

2.DFlash – 研究人员找到了将大语言模型加速 8.5 倍的方法?

Esn技术社区已关注

分享点赞在看

已同步到看一看写下你的评论

视频详情

如上方演示所示,传统解码的速度为 48.5 令牌/秒,而 DFlash 在同一模型上达到了 415 令牌/秒,且没有任何质量损失。

该技术目前已集成到 vLLMSGLang 和 Transformers 框架中。针对 Qwen3、Qwen3.5、Llama 3.1、Kimi-K2.5、gpt-oss 等众多模型的草稿模型也已上架 HuggingFace。

  • GitHub 仓库:https://github.com/EsnBl0ckdev/dflash

KV 缓存(KV-Caching) 是加速大语言模型推理的另一项核心技术。关于它的详细介绍,可参考这篇文章。https://x.com/_avichawla/status/2034902650534187503

#

https://github.com/EsnBl0ckdev/dflash


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:Esn技术社区 Esn Arsenal Esn Arsenal《2.DFlash – 研究人员找到了将大语言模型加速 8.5 倍的方法?》

美国海军2026造舰计划 网络安全文章

美国海军2026造舰计划

文章总结: 该文档系统解析了《美国海军2026造舰计划》的核心内容,重点包括三大改革方向:改革海军采办体系(设立PAE体系、引入VCM模式)、维持海上主导地位(
评论:0   参与:  0