2026-05-23 05:29:10 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： DeepSeek多模态模型通过视觉原语（边界框与点坐标）嵌入思维链解决指代鸿沟问题，在迷宫导航等空间任务表现优于主流模型，并采用三级压缩提升效率；其技术报告与代码上线后迅速被撤，官方未说明原因，但能力已在产品端灰度。 综合评分： 85 文章分类： AI安全,技术标准,解决方案

cover_image

刚曝光就删库？DeepSeek多模态首日，比技术更炸裂的是它的操作

原创

临夏川临夏川

临夏川

2026年5月1日 13:17 新加坡

在小说阅读器读本章

去阅读

这两天，AI圈的焦点再次被DeepSeek抢走。

很多用户发现，DeepSeek的网页端和App悄悄多了一个“识图模式”入口。与“快速模式”“专家模式”并列，标志着DeepSeek正式补齐多模态这块拼图。

但这绝不只是一个“能看图”的补丁。伴随灰度上线的，还有一份名为《Thinking with Visual Primitives（以视觉原语思考）》的技术报告，只不过——剧情有点魔幻：

报告上线没多久就被撤下，GitHub仓库也变成了404；与此同时，研究员的预告推文也被删除。媒体与社区不得不靠“先读后备份”的方式，还原这次“多模态首秀”的技术细节与看点。

那么问题来了：

DeepSeek到底想做什么？
为什么论文和代码“说没就没”？
开发者和普通用户，分别能从中得到什么？

👁️ AI的“老毛病”：看得到，指不准

多模态大模型有一个公开的“老毛病”——指代鸿沟（Reference Gap）。

以前的做法，本质是把图像切成一块块，再转成文字在“脑子里”推理。这在“识别图里有什么”没问题，但在需要精确“指向”的复杂场景就翻车。

比如“数一张图里有几根手指”或“走完一张复杂迷宫”，AI其实看见了，但用自然语言去“数”或“走”时，容易发生“指代漂移”，数着数着就乱套。

DeepSeek给这个问题起名叫“指代鸿沟”。并给出了一个听起来非常朴素的解法：给AI装一根“赛博手指”。

🖱️ DeepSeek的“视觉原语”

DeepSeek的做法是：在推理的“思维链”里直接输出两类坐标：

边界框（bounding box）：把对象圈出来；点（point）：在图上戳一个位置（适合走迷宫、追踪路径）。

两种坐标被当作“视觉原语”——也就是思维的最小单元。关键变化在于：坐标不再是最终答案的附属，而是嵌入在思考过程里，模型“边想边画框、边想边打点”，把每一步判断都钉在图像的物理坐标上。

比如：

数人头：模型不是靠感觉回答，而是先把每个人框出来，再按排/区域统计；

走迷宫：它会从终点反向探索，每一步都标注一个点，走不通就回退，尝试另一条路。

这种“边指边想”的做法有两个直接好处：

极度透明可校验：你能在界面上看到它框了哪里、点了哪里，发现“框错了”立刻就能改；

对空间/拓扑类任务更稳：不是纯靠自然语言去“乱指”，而是用坐标串起推理链条。

图片由ai生成

⚙️ 效率与成本

多模态最怕“吃显存”。DeepSeek在这套架构里，做了三级压缩：

3×3 空间压缩；再叠加压缩稀疏注意力（CSA）对 KV Cache 的进一步压缩。

论文给出的数据是：一张756×756的图，从57万像素一路压到约81个信息单元，压缩比约7056倍。同等尺寸的图，Claude Sonnet 4.6约需870条KV Cache条目，Gemini‑3‑Flash约1100，而DeepSeek仅约90条。

这意味着：

单次推理更省显存；高并发、长上下文或多图场景的吞吐与成本更友好；对需要实时/准实时处理的视频流、机器人视觉等应用也更现实。

底座方面，这次多模态能力基于DeepSeek‑V4‑Flash：284B总参、推理时激活13B的MoE架构，主打“小体量也能打”。

📊 点在哪里明显更强？

报告里对比了GPT‑5.4、Claude Sonnet 4.6、Gemini‑3‑Flash等主流模型，在计数、空间推理、迷宫导航、路径追踪等任务上的表现。几个有代表性的点：

迷宫导航：DeepSeek达到66.9%，而GPT‑5.4约为50.6%，Claude/Gemini多在50%附近波动（接近随机猜）；路径追踪：DeepSeek达到56.7%，同样拉开明显差距；计数与细粒度空间问答：也呈现出“指得更准，错得更少”的态势。

简单讲：在需要“精确指向”的“硬空间任务”上，DeepSeek展现出了差异化的优势。

❓ “说没就没”，发生了什么？

整个事件里最抓人眼球的，是这条时间线：

4月29日：DeepSeek网页端/App灰度“识图模式”；研究员在X发布“Now, we see you.”的预告；

4月30日凌晨：GitHub上线《Thinking with Visual Primitives》项目与PDF；

同日上午：仓库与论文被撤，页面变成404；研究员相关推文也被删除；

此后：社区完成备份，媒体（如爱范儿、虎嗅等）根据备份版本进行了解读与还原。

目前官方未就撤回原因做出公开说明。媒体普遍猜测可能包括：配套产品尚未就绪、发布节奏与内部流程不一致、或是技术细节披露过于充分等，但均未获证实。

一个可验证的事实是：截至发稿，GitHub仓库页面确为“Page not found（404）”，说明原论文与代码入口已不存在。后续是否重新发布，需要以官方公告为准。

结尾

从纯文本到“睁眼看图”，再到“伸手指给你看”，DeepSeek的多模态第一步走得扎实且独特。尽管论文与代码在几小时内被撤、GitHub页面现为404，让整件事多了几分悬念，但技术细节已被媒体与社区多次交叉验证与还原。

或许，这只是DeepSeek一贯的“先干了再说”的节奏：能力已在灰度，论文会以更完整的形态回归。但至少有一点已经很清楚：多模态的赛道，又多了一个不一样的路线。

— END —

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：临夏川临夏川临夏川《刚曝光就删库？DeepSeek多模态首日，比技术更炸裂的是它的操作》