2026-01-29 01:01:08 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文指出AI安全的核心风险在于缺乏认知自律，即无法在证据不足时自主停止输出。文章类比维基百科的显性标注系统，强调AI需具备识别推理链不确定性的能力，而非仅做表面上的不确定性表达。这种显性拒绝机制是解决AI幻觉与自动化风险的根源，对安全治理至关重要。 综合评分： 82 文章分类： AI安全,安全建设

cover_image

如果 AI 也知道什么时候该说「我不知道」，世界会更安全吗？

原创

中立权威的中立权威的

国际云安全联盟CSA

2026年1月28日 20:01 广东

3月20日 | 第九届 CSA 大中华区大会·前沿人工智能安全峰会

当我们讨论 AI 风险时，常常聚焦在一个表象问题：

AI 会不会“胡说八道”？

但一个更深层、也更危险的问题是：

AI 并不知道，什么时候它应该闭嘴。

这并不是语言能力的问题，而是一个被低估的——风险管理问题。

AI 并不缺少“不确定性语言”，缺的是“认知自律”

今天的大模型非常擅长使用不确定性措辞：

“我不确定” “这个结论可能不准确” “建议进一步验证”

问题在于，这些表达往往是被要求之后的表演，

而不是模型自身对“证据是否充分”的真实判断。

你可以让 AI：

给出推理过程
解释结论来源
附上置信度

但这些并不意味着：

模型真的在持续追踪：「我是否有足够的理由支持这个结论？」

在工程层面，大模型确实存在 token 级概率，

但这并不等同于对结论整体可靠性的判断或对推理链强弱的评估。

一个由“高概率词”组成的段落，依然可能是整体错误的。

这不是小瑕疵，而是结构性安全风险

AI 幻觉并不只是“编造事实”。

更准确的说法是：

在缺乏充分依据的情况下，给出了确定性判断。

模型会像“相信某件事是真的”一样输出结论，

却缺乏稳定能力去区分：

我有强证据支持
我只是在模式中填补空白

人类也会犯这种错误。

但 AI 的问题在于：规模化、自动化、无疲劳地放大这种偏差。

这正是为什么，这个问题必须被放在安全与治理的语境中讨论。

人类其实早已给出过答案：显性标注“认知状态”

一个被忽视的事实是：

人类社会已经用 25 年，在维基百科上构建了一套“显性认知标注系统”。

维基百科内联清理标签（又称认识论标签）

例如：

【需要引用】
【来源存疑】
【存在争议】
【推理不成立】

这些标记并不是否定内容本身，而是在回答一个更重要的问题：

“我们凭什么这样说？”

在维基百科的讨论页中，人们会公开争论：

证据是否充分、推理是否跳步、结论是否被过度外推。

这些过程并不完美，但有一个关键价值：理由是可见的。

而这，正是当前 AI 系统中最稀缺的能力。

为什么“推理链的不确定性”最难被管理？

事实是否成立，通常是可验证的。

但推理链并非如此：

因为 A → 推出 B → 再推出 C → 所以应该做 X

每一步都可能“看起来合理”，但整条链依然可能是错的。

真正困难的是：不确定性到底藏在哪一步？

即使 AI 能写出完整推理过程，也很难稳定地评估：

哪一步证据最弱、哪一步只是外推、哪一步风险最大。

而这，恰恰是安全决策中最关键的能力。

风险管理真正需要的，不是“更客气的 AI”

风险管理并不需要更多“听起来谦虚”的表达。

它真正需要的是：

当证据不足时，不输出结论
当关键假设无法验证时，明确停下

理想状态下，AI 应该能说出类似这样的话：

“我无法用足够可靠的来源支撑这一判断”
“这个结论依赖一个我无法验证的前提”
“这里存在多种解释路径，目前无法区分”

这不是对话礼仪，而是情报分析与安全决策的基本要求。

“事后加一层校验”有用，但不够

当前行业正在通过多种方式缓解这一问题：

检索增强
校验模型
策略与合规层
多模型交叉验证

这些手段非常必要，但它们无法替代一个事实：

如果模型本身不具备基本的认知自律能力，所有外部校验都只是补偿，而不是根治。

否则，风险只会被推到更高一层系统中。

一个必须被正视的开放问题

AI 是否有可能学会真正追踪“我为什么相信这件事”？

还是说，推理链的不确定性，本身就比事实更难被机器掌握？

这是一个尚无答案的问题。

但可以确定的是：

随着 AI 开始执行多步行动、自动协作、参与安全与治理决策——

识别 AI 的“不知道”，将和利用它的“知道”一样重要。

写在最后：这正是我们需要共同讨论的议题

如何让 AI 在关键场景中具备更可靠的判断边界？

如何在安全、治理与自动化之间取得平衡？

如何让“可解释性”真正服务于风险管理，而不是形式化输出？

这些问题，已经不再是单纯的技术问题，而是整个安全行业必须共同面对的挑战。

值得一提的是，本文的英文原版的撰写正是采用了一种“捕捉推理过程”的方法——通过与多个 AI 针对论点进行反复辩论与迭代，而不仅仅是生成结论。我们认为，这种“过程”数据正是AI训练中最紧缺的养料。

在即将举办的第九届 CSA 大中华区大会·前沿人工智能安全峰会上，我们也将围绕 AI 安全、治理、自动化风险与未来安全形态等议题，与来自产业、技术与研究领域的专家展开深入讨论。

如果你也在思考这些问题，欢迎来到现场，和更多同行一起交流、碰撞与验证。

扫码报名CSA GCR大会

原文链接：

https://cloudsecurityalliance.org/blog/2026/01/21/what-if-ai-knew-when-to-say-i-don-t-know

本文翻译来自CSA翻译组：

审校：崔崟，CSA大中华区专家

阅读推荐

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：国际云安全联盟CSA 中立权威的中立权威的《如果 AI 也知道什么时候该说「我不知道」，世界会更安全吗？》