文章总结: DeepSeek多模态模型通过视觉原语(边界框与点坐标)嵌入思维链解决指代鸿沟问题,在迷宫导航等空间任务表现优于主流模型,并采用三级压缩提升效率;其技术报告与代码上线后迅速被撤,官方未说明原因,但能力已在产品端灰度。 综合评分: 85 文章分类: AI安全,技术标准,解决方案
刚曝光就删库?DeepSeek多模态首日,比技术更炸裂的是它的操作
原创
临夏川 临夏川
临夏川
2026年5月1日 13:17 新加坡
在小说阅读器读本章
去阅读
这两天,AI圈的焦点再次被DeepSeek抢走。
很多用户发现,DeepSeek的网页端和App悄悄多了一个“识图模式”入口。与“快速模式”“专家模式”并列,标志着DeepSeek正式补齐多模态这块拼图。
但这绝不只是一个“能看图”的补丁。伴随灰度上线的,还有一份名为《Thinking with Visual Primitives(以视觉原语思考)》的技术报告,只不过——剧情有点魔幻:
报告上线没多久就被撤下,GitHub仓库也变成了404;与此同时,研究员的预告推文也被删除。媒体与社区不得不靠“先读后备份”的方式,还原这次“多模态首秀”的技术细节与看点。
那么问题来了:
- DeepSeek到底想做什么?
- 为什么论文和代码“说没就没”?
- 开发者和普通用户,分别能从中得到什么?
👁️ AI的“老毛病”:看得到,指不准
多模态大模型有一个公开的“老毛病”——指代鸿沟(Reference Gap)。
以前的做法,本质是把图像切成一块块,再转成文字在“脑子里”推理。这在“识别图里有什么”没问题,但在需要精确“指向”的复杂场景就翻车。
比如“数一张图里有几根手指”或“走完一张复杂迷宫”,AI其实看见了,但用自然语言去“数”或“走”时,容易发生“指代漂移”,数着数着就乱套。
DeepSeek给这个问题起名叫“指代鸿沟”。并给出了一个听起来非常朴素的解法:给AI装一根“赛博手指”。
🖱️ DeepSeek的“视觉原语”
DeepSeek的做法是:在推理的“思维链”里直接输出两类坐标:
边界框(bounding box):把对象圈出来;点(point):在图上戳一个位置(适合走迷宫、追踪路径)。
两种坐标被当作“视觉原语”——也就是思维的最小单元。关键变化在于:坐标不再是最终答案的附属,而是嵌入在思考过程里,模型“边想边画框、边想边打点”,把每一步判断都钉在图像的物理坐标上。
比如:
数人头:模型不是靠感觉回答,而是先把每个人框出来,再按排/区域统计;
走迷宫:它会从终点反向探索,每一步都标注一个点,走不通就回退,尝试另一条路。
这种“边指边想”的做法有两个直接好处:
极度透明可校验:你能在界面上看到它框了哪里、点了哪里,发现“框错了”立刻就能改;
对空间/拓扑类任务更稳:不是纯靠自然语言去“乱指”,而是用坐标串起推理链条。
图片由ai生成
⚙️ 效率与成本
多模态最怕“吃显存”。DeepSeek在这套架构里,做了三级压缩:
3×3 空间压缩;再叠加压缩稀疏注意力(CSA)对 KV Cache 的进一步压缩。
论文给出的数据是:一张756×756的图,从57万像素一路压到约81个信息单元,压缩比约7056倍。同等尺寸的图,Claude Sonnet 4.6约需870条KV Cache条目,Gemini‑3‑Flash约1100,而DeepSeek仅约90条。
这意味着:
单次推理更省显存;高并发、长上下文或多图场景的吞吐与成本更友好;对需要实时/准实时处理的视频流、机器人视觉等应用也更现实。
底座方面,这次多模态能力基于DeepSeek‑V4‑Flash:284B总参、推理时激活13B的MoE架构,主打“小体量也能打”。
📊 点在哪里明显更强?
报告里对比了GPT‑5.4、Claude Sonnet 4.6、Gemini‑3‑Flash等主流模型,在计数、空间推理、迷宫导航、路径追踪等任务上的表现。几个有代表性的点:
迷宫导航:DeepSeek达到66.9%,而GPT‑5.4约为50.6%,Claude/Gemini多在50%附近波动(接近随机猜);路径追踪:DeepSeek达到56.7%,同样拉开明显差距;计数与细粒度空间问答:也呈现出“指得更准,错得更少”的态势。
简单讲:在需要“精确指向”的“硬空间任务”上,DeepSeek展现出了差异化的优势。
❓ “说没就没”,发生了什么?
整个事件里最抓人眼球的,是这条时间线:
4月29日:DeepSeek网页端/App灰度“识图模式”;研究员在X发布“Now, we see you.”的预告;
4月30日凌晨:GitHub上线《Thinking with Visual Primitives》项目与PDF;
同日上午:仓库与论文被撤,页面变成404;研究员相关推文也被删除;
此后:社区完成备份,媒体(如爱范儿、虎嗅等)根据备份版本进行了解读与还原。
目前官方未就撤回原因做出公开说明。媒体普遍猜测可能包括:配套产品尚未就绪、发布节奏与内部流程不一致、或是技术细节披露过于充分等,但均未获证实。
一个可验证的事实是:截至发稿,GitHub仓库页面确为“Page not found(404)”,说明原论文与代码入口已不存在。后续是否重新发布,需要以官方公告为准。
结尾
从纯文本到“睁眼看图”,再到“伸手指给你看”,DeepSeek的多模态第一步走得扎实且独特。尽管论文与代码在几小时内被撤、GitHub页面现为404,让整件事多了几分悬念,但技术细节已被媒体与社区多次交叉验证与还原。
或许,这只是DeepSeek一贯的“先干了再说”的节奏:能力已在灰度,论文会以更完整的形态回归。但至少有一点已经很清楚:多模态的赛道,又多了一个不一样的路线。
— END —
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:临夏川 临夏川 临夏川《刚曝光就删库?DeepSeek多模态首日,比技术更炸裂的是它的操作》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论