2026-01-28 17:42:38 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： DeepSeek发布新论文提出DeepSeek-OCR2模型，核心为DeepEncoderV2编码器。该架构采用紧凑LLM及双流注意力机制，通过视觉因果流实现二维图像理解。实验显示其性能提升至91.09%，降低编辑距离与重复率，为视觉语言模型架构设计及原生多模态编码奠定基础。 综合评分： 95 文章分类： AI安全,数据安全

cover_image

DeepSeek发布新论文

原创

计算机与网络安全计算机与网络安全

计算机与网络安全

2026年1月28日 07:57 山东

DeepSeek于2026年1月27日发布最新论文《DeepSeek-OCR 2: Visual Causal Flow》，同日，DeepSeek团队还开源了DeepSeek-OCR 2模型，并在Hugging Face和GitHub等平台公开了相关资源。

论文提出DeepSeek-OCR 2，其关键创新在于新型编码器DeepEncoder V2，该编码器能基于图像语义动态重排视觉令牌，旨在探索通过两级级联的一维因果推理结构实现二维图像理解的可行性。

研究的主要内容

DeepEncoder V2架构：DeepEncoder V2是DeepSeek-OCR 2的核心创新部分。它将DeepEncoder中的CLIP组件替换为紧凑的LLM架构（如Qwen2-0.5B，500M参数），以实现视觉因果流。该架构采用双流注意力机制，视觉令牌使用双向注意力以保留全局建模能力，新引入的因果流查询则采用因果注意力。因果流查询与视觉令牌数量相等，通过多裁剪策略，全局视图（1024×1024分辨率）对应256个查询嵌入，局部裁剪（768×768分辨率）共享144个查询嵌入，总视觉令牌数在256 – 1120之间（0 – 6个局部视图，6×144 + 256 = 1120）。注意力掩码由两部分组成，左侧对原始视觉令牌应用双向注意力，右侧对因果流令牌采用因果注意力（下三角矩阵），公式为$ M = \begin{bmatrix} 11_{V \times V} & 11_{V \times Q} \ 0_{Q \times V} & \text{LowerTri}(Q) \end{bmatrix} $，其中$ V $为视觉令牌数，$ Q $为因果查询令牌数且$ Q = V $。

DeepSeek-MoE解码器：DeepSeek-OCR 2的解码器沿用DeepSeek-OCR的3B参数MoE结构，活跃参数约500M。其核心前向传播公式为$ O = D\left( \text{proj}\left( T_{\theta}(E(I) \oplus Q_0; M) \right) \right) $，其中$ I $为输入图像，$ E $为视觉令牌器将图像映射为$ V $个视觉令牌$ V \in \mathbb{R}^{V \times D} $，$ Q_0 \in \mathbb{R}^{Q \times D} $为可学习因果查询嵌入，$ \oplus $为序列拼接，$ T_{\theta} $为带掩码注意力的$ \theta $层Transformer，$ M $为注意力掩码，$ \text{proj} $提取最后$ Q $个令牌，$ D $为语言解码器，$ O $为输出logits。

训练流程：训练分为三个阶段。第一阶段训练DeepEncoder V2，采用语言建模目标，将编码器与轻量级解码器耦合通过下一个令牌预测联合优化。使用768×768和1024×1024两种分辨率的数据加载器，视觉令牌器从DeepEncoder初始化，LLM风格编码器从Qwen2-0.5B base初始化。使用AdamW优化器，余弦学习率从1e – 4衰减到1e – 6，在160个A100 GPU（20节点×8 GPU）上以640的批大小训练40k迭代（序列打包长度8K，约100M图像 – 文本对样本）。第二阶段查询增强，将DeepEncoder V2与DeepSeek – 3B – A500M集成，冻结视觉令牌器（SAM – conv结构），联合优化LLM编码器和LLM解码器。通过多裁剪策略统一为单一数据加载器，采用4阶段管道并行，160个GPU（40GB/每GPU）配置40个数据并行副本（每个副本4个GPU），全局批大小1280，相同优化器，学习率从5e – 5衰减到1e – 6训练15k迭代。第三阶段继续训练LLM，冻结DeepEncoder V2所有参数，仅更新DeepSeek – LLM参数，学习率从1e – 6衰减到5e – 8训练20k迭代，以加速训练并帮助LLM更好理解重排后的视觉令牌。

实验评估：在OmniDocBench v1.5基准上评估，该基准包含1355个文档页面，涵盖9个主要类别（中英文）。DeepSeek-OCR 2在视觉令牌上限（V – token_max）为1120时，总体性能达到91.09%，相比DeepSeek-OCR（V – token_max 1156，总体87.36%）提升3.73%。阅读顺序（R – order）的编辑距离（ED）从0.085显著降低到0.057。在不同文档元素类别上，文本ED从0.073降至0.048，公式ED从0.236降至0.198，表ED从0.123降至0.096，总体ED从0.129降至0.100，且在相同视觉令牌预算（1120）下优于Gemini – 3 Pro（总体ED 0.115）。生产环境中，在线用户日志图像的重复率从6.25%降至4.17%，PDF数据生产的重复率从3.69%降至2.88%。

结论

DeepSeek-OCR 2通过提出的DeepEncoder V2实现了显著性能提升，在OmniDocBench v1.5上较DeepSeek-OCR提高3.73%，并改善了视觉阅读逻辑，降低了阅读顺序等的编辑距离及生产环境中的重复率。其创新的LLM风格编码器架构，通过两级级联的一维因果推理结构，为实现真正的二维推理提供了新途径，同时为迈向原生多模态编码奠定了基础，对视觉语言模型（VLMs）的架构设计具有重要意义。

本文完整文档已上传至星球

点这里自助下载

DeepSeek-OCR 2：视觉因果流.pdf

人工智能基础支撑基础数据服务训练数据集类型与质量要求.pdf

智能体安全评测规范.pdf

大模型与智能体安全.pptx

加好友进群

–

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：计算机与网络安全计算机与网络安全计算机与网络安全《DeepSeek发布新论文》