刚曝光就删库?DeepSeek多模态首日,比技术更炸裂的是它的操作

admin 2026-05-23 05:29:10 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: DeepSeek多模态模型通过视觉原语(边界框与点坐标)嵌入思维链解决指代鸿沟问题,在迷宫导航等空间任务表现优于主流模型,并采用三级压缩提升效率;其技术报告与代码上线后迅速被撤,官方未说明原因,但能力已在产品端灰度。 综合评分: 85 文章分类: AI安全,技术标准,解决方案


cover_image

刚曝光就删库?DeepSeek多模态首日,比技术更炸裂的是它的操作

原创

临夏川 临夏川

临夏川

2026年5月1日 13:17 新加坡

在小说阅读器读本章

去阅读

这两天,AI圈的焦点再次被DeepSeek抢走。

很多用户发现,DeepSeek的网页端和App悄悄多了一个“识图模式”入口。与“快速模式”“专家模式”并列,标志着DeepSeek正式补齐多模态这块拼图。

但这绝不只是一个“能看图”的补丁。伴随灰度上线的,还有一份名为《Thinking with Visual Primitives(以视觉原语思考)》的技术报告,只不过——剧情有点魔幻:

报告上线没多久就被撤下,GitHub仓库也变成了404;与此同时,研究员的预告推文也被删除。媒体与社区不得不靠“先读后备份”的方式,还原这次“多模态首秀”的技术细节与看点。

那么问题来了:

  • DeepSeek到底想做什么?
  • 为什么论文和代码“说没就没”?
  • 开发者和普通用户,分别能从中得到什么?

👁️ AI的“老毛病”:看得到,指不准

多模态大模型有一个公开的“老毛病”——指代鸿沟(Reference Gap)。

以前的做法,本质是把图像切成一块块,再转成文字在“脑子里”推理。这在“识别图里有什么”没问题,但在需要精确“指向”的复杂场景就翻车。

比如“数一张图里有几根手指”或“走完一张复杂迷宫”,AI其实看见了,但用自然语言去“数”或“走”时,容易发生“指代漂移”,数着数着就乱套。

DeepSeek给这个问题起名叫“指代鸿沟”。并给出了一个听起来非常朴素的解法:给AI装一根“赛博手指”。

🖱️ DeepSeek的“视觉原语”

DeepSeek的做法是:在推理的“思维链”里直接输出两类坐标:

边界框(bounding box):把对象圈出来;点(point):在图上戳一个位置(适合走迷宫、追踪路径)。

两种坐标被当作“视觉原语”——也就是思维的最小单元。关键变化在于:坐标不再是最终答案的附属,而是嵌入在思考过程里,模型“边想边画框、边想边打点”,把每一步判断都钉在图像的物理坐标上。

比如:

数人头:模型不是靠感觉回答,而是先把每个人框出来,再按排/区域统计;

走迷宫:它会从终点反向探索,每一步都标注一个点,走不通就回退,尝试另一条路。

这种“边指边想”的做法有两个直接好处:

极度透明可校验:你能在界面上看到它框了哪里、点了哪里,发现“框错了”立刻就能改;

对空间/拓扑类任务更稳:不是纯靠自然语言去“乱指”,而是用坐标串起推理链条。

图片由ai生成

⚙️ 效率与成本

多模态最怕“吃显存”。DeepSeek在这套架构里,做了三级压缩:

3×3 空间压缩;再叠加压缩稀疏注意力(CSA)对 KV Cache 的进一步压缩。

论文给出的数据是:一张756×756的图,从57万像素一路压到约81个信息单元,压缩比约7056倍。同等尺寸的图,Claude Sonnet 4.6约需870条KV Cache条目,Gemini‑3‑Flash约1100,而DeepSeek仅约90条。

这意味着:

单次推理更省显存;高并发、长上下文或多图场景的吞吐与成本更友好;对需要实时/准实时处理的视频流、机器人视觉等应用也更现实。

底座方面,这次多模态能力基于DeepSeek‑V4‑Flash:284B总参、推理时激活13B的MoE架构,主打“小体量也能打”。

📊 点在哪里明显更强?

报告里对比了GPT‑5.4、Claude Sonnet 4.6、Gemini‑3‑Flash等主流模型,在计数、空间推理、迷宫导航、路径追踪等任务上的表现。几个有代表性的点:

迷宫导航:DeepSeek达到66.9%,而GPT‑5.4约为50.6%,Claude/Gemini多在50%附近波动(接近随机猜);路径追踪:DeepSeek达到56.7%,同样拉开明显差距;计数与细粒度空间问答:也呈现出“指得更准,错得更少”的态势。

简单讲:在需要“精确指向”的“硬空间任务”上,DeepSeek展现出了差异化的优势。

❓ “说没就没”,发生了什么?

整个事件里最抓人眼球的,是这条时间线:

4月29日:DeepSeek网页端/App灰度“识图模式”;研究员在X发布“Now, we see you.”的预告;

4月30日凌晨:GitHub上线《Thinking with Visual Primitives》项目与PDF;

同日上午:仓库与论文被撤,页面变成404;研究员相关推文也被删除;

此后:社区完成备份,媒体(如爱范儿、虎嗅等)根据备份版本进行了解读与还原。

目前官方未就撤回原因做出公开说明。媒体普遍猜测可能包括:配套产品尚未就绪、发布节奏与内部流程不一致、或是技术细节披露过于充分等,但均未获证实。

一个可验证的事实是:截至发稿,GitHub仓库页面确为“Page not found(404)”,说明原论文与代码入口已不存在。后续是否重新发布,需要以官方公告为准。

结尾

从纯文本到“睁眼看图”,再到“伸手指给你看”,DeepSeek的多模态第一步走得扎实且独特。尽管论文与代码在几小时内被撤、GitHub页面现为404,让整件事多了几分悬念,但技术细节已被媒体与社区多次交叉验证与还原。

或许,这只是DeepSeek一贯的“先干了再说”的节奏:能力已在灰度,论文会以更完整的形态回归。但至少有一点已经很清楚:多模态的赛道,又多了一个不一样的路线。

— END —


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:临夏川 临夏川 临夏川《刚曝光就删库?DeepSeek多模态首日,比技术更炸裂的是它的操作》

评论:0   参与:  0