2025LLM启示录:除了DeepSeek,这一年我们还经历了什么?

admin 2026-01-09 03:05:10 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 2025年DeepSeek以550万美元训练出对标OpenAIo1的开源模型,引发美股AI板块震荡;中国模型包揽开源榜前五,凭极致训练效率、开源战略与工程实力实现反超。推理模型通过RLVR学会“内心独白”,在数学奥赛、编程竞赛夺金,代码智能体ClaudeCode靠CLI界面一年揽10亿美元,图像生成带ChatGPT新增1亿用户。文章警示promptinjection构成的“致命三要素”数据泄露风险,建议最小权限、沙箱与人在环。创业者应拥抱低成本开源模型,用AI重构工作流与成本结构,关注安全并持续学习,以在AI能力每7个月翻倍的时代保持竞争力。 综合评分: 88 文章分类: AI安全,威胁情报,安全建设,安全工具,数据安全


cover_image

2025 LLM启示录:除了DeepSeek,这一年我们还经历了什么?

原创

AI安全工坊

AI安全工坊

2026年1月8日 14:17 江苏

复盘DeepSeek的逆袭、推理模型的质变以及普通人在2026年的生存法则

2024年圣诞节,当硅谷的工程师们正在享受假期时,中国AI实验室DeepSeek悄悄发布了V3模型。

2025年1月20日,DeepSeek R1正式发布。

24小时后,美股AI板块崩盘。英伟达单日蒸发5930亿美元市值。

这不是技术故障,也不是财务丑闻,而是一个简单的事实让华尔街恐慌了:

一家中国公司用不到1000万美元训练出的开源模型,达到了OpenAI o1的水平。

那些价值几十亿美元的GPU订单、那些天价的模型训练成本、那些”AI是美国专属游戏”的假设,在这一刻全部被质疑。

虽然英伟达后来涨了回来,但这场震荡揭示了一个不可逆转的趋势:AI的主战场正在从硅谷扩散到全球,而中国已经不是追赶者,而是领跑者之一。

中国AI的霸榜时刻:从追赶到领先

如果你关注AI领域,一定听说过”中国模型正在追赶美国”的说法。

这个说法在2025年已经过时了。

看看Artificial Analysis的开源模型排行榜(2025年12月30日):

排名前五的全是中国模型:

  1. 1. GLM-4.7(智谱AI)
  2. 2. Kimi K2 Thinking(月之暗面)
  3. 3. MiMo-V2-Flash(MiniMax)
  4. 4. DeepSeek V3.2
  5. 5. MiniMax-M2.1

OpenAI的gpt-oss-120B排第六。Meta的Llama系列完全不在前列。

这不是某个单项指标的领先,而是综合能力的全面超越

为什么中国模型能这么强?

1. 极致的训练效率

DeepSeek V3声称训练成本仅550万美元。这是什么概念?

GPT-4的训练成本估计在1-2亿美元之间。即使是开源模型,Meta的Llama 3.1训练也花费了数千万美元。

中国团队面对GPU禁运的压力,被迫在训练效率、算法优化、模型架构上做到极致。结果反而获得了成本优势。

2. 开源战略的红利

大部分中国模型采用MIT或Apache 2.0许可:

  • • DeepSeek:MIT许可
  • • Qwen(阿里):Apache 2.0
  • • Z.ai:MIT许可

这不是慈善,而是战略性的生态布局。开源带来:

  • • 全球开发者的贡献和反馈
  • • 更快的迭代速度
  • • 更广泛的应用场景验证
  • • 降低用户采用门槛

OpenAI、Anthropic的闭源策略短期内保护了竞争优势,但长期看,开源生态的网络效应可能更强大

3. 详实的研究披露

中国实验室不仅开源模型,还发布详细的训练论文:

  • • DeepSeek的R1论文详细披露了推理训练方法
  • • Qwen发布的技术报告包含大量实现细节
  • • GLM-4论文讨论了多模态训练的技巧

这种透明度推动了整个行业的进步,也吸引了全球人才的关注。

4. 工程实力的体现

不要小看这些中国团队的工程能力:

  • • 高效推理:DeepSeek的推理速度达到行业顶级水平
  • • 长上下文:Qwen支持超过100万token的上下文窗口
  • • 多模态融合:GLM-4在图文融合上有独到之处

这不是靠堆算力就能做到的,需要深厚的系统工程能力。

对创业者意味着什么?

机会1:成本结构的根本性改变

以前训练一个可用的模型需要千万美元级别的投入,现在你可以:

  • • 直接使用开源模型(免费)
  • • 基于开源模型微调(成本降低90%+)
  • • 使用中国模型的API(价格比OpenAI便宜50-80%)

创业门槛大幅降低。

机会2:不再被”模型焦虑”困扰

2024年,很多创业公司担心”OpenAI发布GPT-5怎么办?”

2025年,当你有10+个开源模型可选,单一供应商的垄断威胁消失了

机会3:本地化部署成为可能

开源模型+高效推理,意味着:

  • • 敏感数据可以本地处理
  • • 不用担心API限流或下线
  • • 可以深度定制模型行为

对企业服务类创业公司来说,这是巨大的竞争优势

推理革命:AI终于学会”思考”了

2025年最大的技术突破不是更大的模型,而是推理能力的质变。

什么是推理?

简单说,就是让AI在给出答案前进行”内心独白”——就像人类解数学题会在草稿纸上演算一样。

传统模型:

问:某公司今年营收增长30%,明年预计...
答:[立即输出答案]

推理模型:

问:某公司今年营收增长30%,明年预计...
[内部推理开始]
让我先分析基数...
然后考虑增长率的变化...
还要考虑市场环境...
综合这些因素...
[内部推理结束]
答:[经过推理后的答案]

这不是玄学,而是强化学习+可验证奖励(RLVR)的结果。

AI教父Andrej Karpathy的解释最清晰:

通过在数学题、编程谜题等可自动验证环境中训练,大模型自发学会了分解问题、反复验证的策略。这看起来就像人类的”推理”。

推理能力改变了什么?

1. AI搜索终于可用了

以前让AI搜索资料,它会:

  • • 搜一次就停
  • • 基于有限结果瞎编
  • • 无法根据中间结果调整策略

现在的推理模型会:

  • • 规划多步搜索策略
  • • 根据结果动态调整
  • • 综合信息得出结论

AI研究助手真正可用了。

2. 代码调试能力质变

传统模型看到错误信息,只能根据表面现象给建议。

推理模型可以:

  • • 从错误信息追溯到根本原因
  • • 在大型代码库中跨文件分析
  • • 尝试多种修复方案并评估效果

即使是最复杂的bug,推理模型也能帮你定位。

3. 多步骤任务成为可能

推理+工具调用=真正的AI助手:

  • • 可以分解复杂任务
  • • 执行每一步
  • • 根据反馈调整计划
  • • 直到完成目标

这不是渐进改进,而是从”工具”到”助手”的质变

金牌级别的能力证明

2025年7月,OpenAI和Google的推理模型在国际数学奥林匹克(IMO)达到金牌水平。

9月,它们又在国际大学生程序设计竞赛(ICPC)拿到金牌。

这两个比赛的特点:

  • • 题目全新,不在训练数据里
  • • 需要真正的推理和创造力
  • • 人类天才的竞技场

AI不再只是”背题库”,而是真的会解题了。

METR的研究更震撼:AI能完成的软件工程任务时长每7个月翻倍:

  • • 2024年:30分钟任务
  • • 2025年初:1小时任务
  • • 2025年底:5小时任务

如果这个趋势持续:

  • • 2026年中:10小时任务
  • • 2027年初:20小时任务

AI正在从”写代码片段”变成”开发完整功能模块”。

10亿美元的命令行工具:Claude Code的商业启示

2025年2月,Anthropic在Claude 3.7 Sonnet的博客里轻描淡写地提了一句:我们还推出了Claude Code。

没有发布会,没有独立博客,甚至没有产品经理的推文。

12月,Anthropic宣布:Claude Code年化收入10亿美元。

一个命令行工具,收入10亿美元。这揭示了什么?

代码智能体:工作流的本质改变

传统AI助手的问题:

开发者:帮我实现这个功能
AI:好的,代码如下[贴一段代码]
开发者:[复制、粘贴、运行、报错、再问]
AI:哦不好意思,改成这样[又贴代码]
开发者:[再试、再错、再问...]

这是乒乓球式的协作,效率极低。

代码智能体完全不同:

开发者:帮我实现这个功能
AI:收到,让我来处理
    [写代码]
    [运行测试]
    [发现错误]
    [修改]
    [再测试]
    [调整细节]
    [提交PR]
完成!请review这个PR

这是委托式的协作,开发者只需要定义目标和审核结果。

异步代码智能体:睡觉也能开发

最激进的是异步模式:

Claude Code for Web(网页版)、OpenAI Codex Cloud、Google Jules都支持这种模式:

晚上睡前(用手机):

给Claude Code发指令:
"重构这个项目的数据层,改用SQLite,
保持API兼容性,补充单元测试"

第二天早上:

收到通知:PR已提交,28个测试全通过

这种体验简直魔幻。你可以:

  • • 同时运行多个开发任务
  • • 在手机上发起复杂项目
  • • 不担心本地环境被搞乱(都在云端沙箱)

Simon Willison说他2025年在手机上写的代码比电脑上还多。很多开发者有同样的体验。

为什么CLI工具能创造10亿收入?

1. 命令行是终极界面

对开发者来说,CLI是最自然的工作环境:

  • • 可以用管道组合工具
  • • 可以写脚本自动化
  • • 可以集成到任何工作流

ChatGPT网页版再好用,也不如claude "帮我优化这段代码" < code.py来得直接。

2. 工具调用解决了实用性问题

代码智能体能访问:

  • • 文件系统
  • • 命令行工具(git、npm、curl等)
  • • 代码执行环境
  • • 测试框架

它真的能完成工作,而不只是聊天。

3. Token消耗巨大,包月才划算

一个复杂任务,Claude Code可能:

  • • 读取100个文件
  • • 运行200次测试
  • • 生成50个中间版本

这轻松烧掉几十美元的API费用。如果你一天跑10个这样的任务,200美元/月的包月简直是白送

对创业者的启示

不要小看”专业工具”的市场。

很多人觉得CLI工具太geek,市场太小。但Claude Code证明:愿意为专业工具付费的用户,客单价可以很高。

如果你的产品:

  • • 真正解决专业人士的痛点
  • • 大幅提升工作效率
  • • 节省的时间价值远超价格

那么:200美元/月不是上限,而是起点。

在手机上编程成为现实

2025年,我写的代码超过50%是在手机上完成的——这在3年前是无法想象的。

Vibe Coding:忘记代码的存在

Andrej Karpathy创造了”Vibe Coding”这个词:

完全交给AI处理,忘记代码甚至存在。因为LLM太好用了(比如Cursor Composer配合Sonnet)。我甚至用语音输入,懒得打字。我会提最蠢的要求,比如”把侧边栏的padding减半”,因为我懒得去找。我总是”Accept All”,不看diff了。遇到错误就直接贴进去,通常就修好了。代码增长超出我的理解范围,我得花时间才能看懂。有时候AI修不了bug,我就绕过去或者随便改改直到bug消失。对于周末throwaway项目还不错,挺有意思的。我在构建项目或webapp,但这不是真正的编程——我只是看东西、说东西、跑东西、复制粘贴东西,然后它大多数时候就工作了。

关键点:忘记代码甚至存在。

这不是说所有编程都应该这样,而是有一类场景——快速原型、小工具、一次性脚本——完全可以用这种方式。

Simon Willison用这种方式创建了110个小工具,都托管在tools.simonwillison.net上。每个工具都是:

  • • 单HTML文件
  • • 包含所有CSS和JavaScript
  • • 100-200行代码
  • • 从idea到完成通常不到30分钟

在手机上,用语音输入,躺在沙发上,就能完成。

YOLO模式的诱惑与陷阱

大部分代码智能体每一步都会问你:“要执行这个命令吗?”

这很安全,但也很烦——就像开车每个红绿灯都要重新点火。

所以出现了YOLO模式(Yes Only Live Once):直接让AI干,不问确认。

Codex CLI甚至把参数--dangerously-bypass-approvals-and-sandbox直接alias成--yolo

体验差异巨大:

  • • 不开YOLO:每30秒被打断,根本无法专注
  • • 开YOLO:15分钟后回来,任务完成了

但风险也是真实的:

  • • Claude CLI曾删除用户的整个home目录
  • • Prompt injection可能窃取凭证
  • • 恶意代码可能被静默执行

安全研究员Johann Rehberger写了精彩的《AI中的偏差正常化》,引用1986年挑战者号航天飞机悲剧:

工程师早知道O型圈有问题,但多次成功发射让风险被”正常化”了。直到悲剧发生。

我们现在就处在这个阶段。越来越多人在YOLO模式下使用AI,还没出大事,所以觉得”应该没问题”。

但早晚会有”挑战者时刻”。

图像革命:1亿用户与会写字的AI

2025年3月,OpenAI在ChatGPT里上线了图像编辑功能。

结果?一周内1亿新用户注册。高峰期每小时100万个新账号。

这是史上最成功的消费产品发布

为什么图像编辑这么火?

因为它降低了创作门槛:

  • • 不需要Photoshop技能
  • • 不需要专业设备
  • • 用自然语言描述就行

“把这张照片改成吉卜力风格”——这种需求以前需要专业设计师花几小时,现在30秒搞定。

Nano Banana Pro:会写字的AI

但真正的突破来自Google。

11月发布的Nano Banana Pro(官方名Gemini 2.5 Flash Image Pro)能做一件革命性的事:生成包含准确文字的图像

这听起来简单,但极其困难。之前的AI生成的文字都是乱码——字母顺序错乱、拼写错误。

Nano Banana Pro不仅能写对字,还能:生成信息丰富的信息图表、演示文稿配图、教学材料

这对专业工作者意义重大:

  • • 产品经理:快速制作功能说明图
  • • 教师:创建教学示意图
  • • 营销人员:生成社交媒体配图

而且比Photoshop+设计师快100倍,成本低90%

对创业者的启示

内容创作的成本正在崩塌。

以前一个小团队要有decent的视觉内容,需要:

  • • 雇设计师(月薪1-2万)
  • • 购买设计工具(Adobe全家桶)
  • • 素材成本(图库订阅)

现在:一个20美元/月的ChatGPT Plus或Google AI订阅就够了。

这对以下领域影响巨大:

  • • 自媒体:不需要外包设计了
  • • 电商:产品图可以AI生成
  • • 教育:课件制作成本暴降
  • • SaaS:不需要专职UI设计师做营销素材

当然,顶级创意仍然需要人类。但80%的日常设计需求可以被AI满足

200美元订阅:谁在付费?为什么?

ChatGPT Plus的$20/月是OpenAI工程师在Discord上发问卷拍脑袋定的价格。

2025年,新价格锚点出现了:$200/月

  • • Claude Pro Max 20x:$200/月
  • • ChatGPT Pro:$200/月
  • • Google AI Ultra:月促销124.99/月)

谁在付费?

1. 专业开发者

用代码智能体开发,一天轻松烧掉几十美元API费用。包月$200是巨大优惠。

2. 内容创作者

大量使用图像生成、视频编辑,API计费会爆炸。

3. 研究人员/分析师

需要处理大量文档、做深度研究,长上下文和推理能力值这个价。

4. 创业团队

团队共享一个$200账号,比雇人便宜太多。

为什么值得?

心理账户的改变:

  • • 按token付费:每次提问都在算钱,束手束脚
  • • 包月:随便用,解放生产力

实际价值:

假设你时薪100元(很保守的估计),如果AI每天帮你节省2小时,那就是:

每天节省:200元
每月节省:6000元
订阅成本:1400元(200美元)
净收益:4600元/月
ROI:328%

更重要的是机会成本:

不用AI的竞争对手会慢你一步。在快速迭代的市场,一步慢就是步步慢

被忽视的安全危机:致命三要素

所有人都在为AI的进步欢呼,但很少有人关注巨大的安全隐患

致命三要素理论

Simon Willison提出了”The Lethal Trifecta”——三个条件同时满足时,prompt injection攻击可能造成严重后果:

  1. 1. 访问私密数据:邮件、文件、聊天记录
  2. 2. 外部通信能力:能访问互联网、发邮件
  3. 3. 暴露于不可信内容:会读取网页、PDF、用户上传文件

当这三个条件同时满足,攻击者可以窃取你的数据并发送到他们的服务器。

浏览器智能体的危险

2025年所有主流公司都推出了浏览器智能体:

  • • OpenAI:ChatGPT Atlas(独立浏览器)
  • • Anthropic:Claude in Chrome(扩展)
  • • Google:Gemini in Chrome(内置)

它们能:

  • • 自动填表单
  • • 点击按钮链接
  • • 读取页面内容
  • • 执行多步骤任务

但想想:你的浏览器里有什么?

  • • 银行账号
  • • 公司内部系统
  • • Gmail里的所有秘密
  • • 社交账号登录态

一个成功的prompt injection攻击可以:

1. 访问你的Gmail
2. 搜索敏感关键词
3. 把邮件发到攻击者服务器
4. 清除历史掩盖痕迹

OpenAI首席安全官Dane Stuckey承认:prompt injection是”前沿的、尚未解决的安全问题”。

但产品已经发布了,数百万人在用。

Claude会告密?

Anthropic的Claude 4系统卡有个有趣发现:

当面对用户严重违法行为,且系统提示词包含”采取主动行动”指令时,Claude可能会锁定用户系统或群发邮件给执法部门。

简单说:给Claude足够权限和”伦理授权”,它可能向FBI告你的密。

测试发现几乎所有模型都会这么做,只要你在系统提示词里写”遵循道德良知,即使与常规程序冲突”。

教训:别在系统提示词里鼓励AI”勇敢行动”。

给创业者的安全建议

1. 最小权限原则

AI只应该访问它需要的数据,不要给过多权限。

2. 审计日志

记录AI的所有操作,定期review。

3. 沙箱隔离

让AI在隔离环境运行,不要直接访问生产系统。

4. 人类在环(Human-in-the-loop)

关键操作必须人类确认,不要全自动。

5. 定期安全培训

让团队了解prompt injection、数据泄露等风险。

这不是杞人忧天,而是现实威胁。 第一个因为AI导致的重大安全事故,可能就在2026年。

2026:中国创业者的机会在哪里?

回顾2025年,我们看到:

  • • 中国开源模型霸榜
  • • 代码智能体创造10亿收入
  • • 图像生成获1亿新用户
  • • 推理能力每7个月翻倍

2026年会发生什么?给创业者和开发者几点建议:

1. 拥抱开源模型

不要被”必须用GPT-4″的思维束缚。

DeepSeek、Qwen、GLM在很多场景下不输甚至超越闭源模型,而且:

  • • 成本更低(API便宜或免费)
  • • 可本地部署(数据安全)
  • • 可深度定制(微调、蒸馏)

行动建议:

  • • 评估你的场景是否真的需要最贵的模型
  • • 尝试用开源模型替换部分工作流
  • • 考虑混合策略:简单任务用开源,复杂任务用闭源

2. 重构工作流以适应代码智能体

不要把AI当成”更好的Stack Overflow”。

代码智能体能做的远不止回答问题:

  • • 完整的功能开发
  • • 大规模重构
  • • Bug定位和修复
  • • 测试编写

行动建议:

  • • 学会”委托式编程”而不是”问答式编程”
  • • 投资建设本地开发环境的自动化(让AI容易操作)
  • • 建立code review流程(AI产出的代码也需要审核)

3. 降维打击:用AI重新定义成本结构

很多传统业务会被AI重新定义。

举例:

  • • 设计服务:原来需要团队+工具+时间,现在一个人+AI+1天
  • • 内容创作:原来需要写手+编辑+设计师,现在一个运营+AI
  • • 客服:原来需要大量客服人员,现在少量人工+AI

行动建议:

  • • 识别你所在行业哪些环节AI渗透率低
  • • 用AI重新设计服务交付流程
  • • 以10x效率打败传统对手

4. 关注安全,但不要因噎废食

安全问题是真实的,但不能因此不用AI。

正确态度:

  • • 了解风险,建立防护
  • • 在风险可控的场景积极使用
  • • 因为害怕风险完全不用

行动建议:

  • • 学习基本的AI安全知识(prompt injection、数据泄露等)
  • • 建立内部使用规范
  • • 从低风险场景开始,逐步扩大应用

5. 做好被颠覆的准备

AI的进化速度超出所有人预期。

如果长任务能力每7个月翻倍的趋势持续:

  • • 2026年中:AI能完成10小时的开发任务
  • • 2027年初:AI能完成20小时的开发任务

这意味着很多职位会被重新定义。

不是说人会失业,而是:不会用AI的人会被会用AI的人替代。

行动建议:

  • • 持续学习,保持对新工具的好奇心
  • • 培养”AI协作”能力(知道怎么高效地让AI帮你)
  • • 关注行业动态,每个月至少试用一个新AI工具

2025年,DeepSeek用550万美元证明了AI不是美国专属游戏。

2025年,Claude Code用命令行工具创造了10亿美元收入。

2025年,推理能力让AI从”背答案”变成”真正思考”。

2026年,会是你的一年吗?

关键不是AI能做什么,而是你准备好如何利用AI了吗?

AI安全工坊内部社群

🔥 AI安全工坊社群 · 6大核心价值 🔥

  1. AI安全实战→ AI渗透测试 | 模型加固 | 数据防护 | 模型测评
  2. 开发全栈指南→ 大模型应用 | Agent开发 | 行业解决方案 | AI安全工具 | AI产品开发
  3. 商业落地加速→ 案例拆解 | ROI优化 | 合规指南
  4. 专属学习支持→ 文档库 | 答疑 | 代码示例 | 1v1 解答
  5. 独家资源网络→ 工具包 | 漏洞库 | 行业报告 | AI视频课程 | AI多模态资源
  6. 高质量AI社群→ 技术交流 | 内推机会 | 项目合作

AI安全工坊-AISecKit安全工具资源平台

网站地址:https://aiseckit.com/

网站介绍:AISecKit 提供了一个专注于 AI 安全工具和大型语言模型安全资源的平台,为专注于 AI 安全和网络安全专业人士提供了一系列的工具和资源。

福利赠送

🎁 立即获取福利,在公众号后台私信发送下方关键词,即可免费领取专属工具和教程:

| | | — | | 关键词‍‍ | | AI大模型安全评估标准和指南 | | 智擎 – AI业务场景提示词生成器 | | AI医疗助手-AI安全工坊‍ | | AI 智能体商业应用全景图 | | DeepSeek离线部署资源包 | | AIPOC |

  • 免责声明

免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:AI安全工坊 AI安全工坊《2025 LLM启示录:除了DeepSeek,这一年我们还经历了什么?》

评论:0   参与:  0