文章总结: 该文档分析Grok与Gemini在核查伊朗米纳布公墓照片时均产生幻觉误判的AI安全事件,揭示AI模型输出置信度与准确性脱节的结构性缺陷。关键发现显示76%的AI生成摘要存在重大信息问题,错误信息被包装成权威报告格式会混淆事实核查并可能成为暴行否认工具。防护建议包括不将AI核查作为终判、保持默认怀疑态度、建立人工复核流程。 综合评分: 85 文章分类: AI安全,威胁情报,漏洞分析,安全意识,安全运营
AI安全事件 | Grok与Gemini双双幻觉误判米纳布公墓照片
原创
天元实验室 天元实验室
M01N Team
2026年6月1日 18:00 北京
在小说阅读器读本章
去阅读
概述
AI安全威胁中,一类核心问题是模型本身的不可信,例如:输出内容失真、产生幻觉、被用于制造虚假信息。这类问题看似只是技术缺陷,但在实际信息环境中已经演变为真实的危害:AI生成的错误信息被包装成权威结论,污染事实核查流程,甚至被用作否认真实事件的工具。
01 事件经过
2026年3月,伊朗南部米纳布一所学校遭到空袭,现场拍摄的公墓照片随即在社交媒体上广泛流传。照片中可以看到已挖掘完成的数十座墓穴整齐排列,地面上还用粉笔标出了待挖区域——这张照片后来成为这场战争中记录平民伤亡最直接的影像之一。
已被证实是人工智能伪造的在卡塔尔被摧毁的美国雷达的图片
问题是,当用户将这张照片提交给Gemini和Grok进行真伪核查时,两个模型给出了截然不同但同样错误的答案。
一系列人工智能在被要求识别米纳布学校罢工遇难者墓地照片时做出错误回答的屏幕截图
Gemini的判定是:这张照片拍摄于两年前的土耳其卡赫拉曼马拉什,记录的是2023年7.8级地震后的集体掩埋现场,与伊朗无关。Grok则认为照片来自印度尼西亚雅加达,是2021年新冠疫情期间大规模葬礼的存档图像。两个模型的回答都语气笃定,都给出了“原始来源”供用户查阅——但顺着这些线索去找,要么图像根本不存在,要么链接指向的报道从未出现过。
事实上,这张照片经研究人员与卫星图像交叉比对后,已被确认确实拍摄于米纳布,且多角度照片和视频片段均未显示任何后期处理痕迹。
《卫报》记者随后对Gemini进行了追问。被告知答案有误后,Gemini修正为“拍摄于2023年11月的加沙”;再次被纠正后,改口称是“新冠疫情期间的德黑兰”;继续被纠正,又改成“伊朗南部地震后的照片”。整个过程中,模型始终在给出具体的时间、地点和背景描述,始终听起来言之凿凿,始终是错的。
02 威胁分析
这个案例揭示的问题不只是模型幻觉本身,而是幻觉与权威感的组合所产生的杀伤力。
语言模型的工作机制决定了它生成的每一句话都是概率最优解,而非事实核查结果。在面对图像溯源这类需要实际检索能力的任务时,模型更倾向于生成一个听起来可信的答案,而非承认不确定性。这使得AI输出具备了一种特殊的危险属性:错误信息被包装成调查报告的形式输出,包含具体日期、地理位置和“来源链接”。
对于普通用户来说,这种格式本身就构成了可信度背书。BBC核实团队高级记者Sardarizadeh指出,他们追踪和辟谣的病毒式传播的虚假信息中,目前有将近一半或更多来自AI生成内容。事实核查员现在需要同时处理虚假帖子,以及聊天机器人针对该帖子产生的误导性核查结论,工作量翻倍,两者都需要从头验证。
AI生成的“辟谣”本身可能成为暴行否认的工具。当真实的伤亡照片被AI判定为“假图”,当已经核实的事件被自信满满地贴上“误传”标签,追责就会被混淆,遇难者家属也不得不面对“你的孩子根本没有死”这类由AI输出的质疑。
2025年一项国际研究的数据放在这里很说明问题:大约一半的AI生成摘要至少存在一个重大的信息来源或准确性问题,Gemini这一比例高达76%。而使用生成式AI获取信息的人数在过去一年翻了一番。这两个数字叠加在一起,意味着当前的信息生态正在以可量化的速度劣化。
03 输出置信度与准确度之间的脱节
当前 AI 系统普遍存在一个结构性缺陷,即模型输出的置信度与答案准确性之间缺乏稳定、可靠的对应关系。无论结论正确与否,模型往往都会以相似的确定性和表达方式进行输出。
这一现象源于大语言模型的核心设计目标。模型本质上是在预测最可能出现的下一个词元,以生成连贯、自然且符合语境的内容,而非对事实进行主动验证或溯源。因此,当用户提出超出模型知识范围、需要实时检索或外部证据支撑的问题时,模型仍可能生成一个逻辑自洽、看似合理的答案,而不是明确表达自身的不确定性。
在面向公众的信息场景中,这种“高置信度与低准确度并存”的特征容易形成认知误导。用户往往会将结构完整、措辞专业、语气笃定的回答视为经过验证的事实结论,从而放大模型幻觉所带来的传播风险与决策风险。
04 防护建议
不将AI生成的“事实核查”作为终判,尤其是涉及图像溯源、实时事件等需要实际检索能力的任务。AI输出的具体时间、地点、来源链接等细节必须独立验证,格式的完整性不等于内容的准确性。
对AI输出保持默认怀疑,在信息真实性得到独立交叉验证之前,任何AI生成的判定都应视为“待确认”,而非“已核实”。同时鼓励AI系统在不确定时明确表达不确定性。
组织内部使用AI辅助信息处理时,明确标注AI参与环节并保留人工复核节点,自动生成的内容不能跳过人工审核,尤其是可能被二次传播的核查结论。
米纳布公墓照片事件不是孤立的模型幻觉个案,而是当前AI信息可信度问题的缩影。随着生成式AI被越来越多人用作信息获取和事实核查的工具,模型带来的风险正在快速放大。问题的本质是它的输出格式与可信度之间没有内在绑定关系。要解决这个问题,既需要在技术层面改进模型的不确定性表达,也需要在使用层面建立人工复核和独立验证的流程。把AI当作辅助工具,而不是最终裁决者。
AISS安全智链社区已收录上述案例,欢迎访问:https://aiss.nsfocus.com/#/
附录:参考链接
[1] https://www.theguardian.com/global-development/2026/mar/17/atrocity-ai-slop-verify-facts-iran-minab-graves
绿盟科技天元实验室专注于新型实战化攻防对抗技术研究。
研究目标包括:漏洞利用技术、防御绕过技术、攻击隐匿技术、攻击持久化技术等蓝军技术,以及攻击技战术、攻击框架的研究。涵盖Web安全、终端安全、AD安全、云安全等多个技术领域的攻击技术研究,以及工业互联网、车联网等业务场景的攻击技术研究。通过研究攻击对抗技术,从攻击视角提供识别风险的方法和手段,为威胁对抗提供决策支撑。
文末福利|社区邀请码限量赠送
本次我们准备了 10 个 AISS 社区邀请码。获取方式: 转发本文 + 点赞 + 评论区留言「申请邀请码」我们将从评论区中抽取 10 位朋友,私信发送邀请码。AISS 是专注 AI 安全的开放社区,涵盖大模型安全风险矩阵、知识库、案例库与事件库,欢迎 AI 安全研究者、开发者与企业安全团队加入共建。
M01N Team公众号
聚焦高级攻防对抗热点技术
绿盟科技蓝军技术研究战队
官方攻防交流群
网络安全一手资讯
攻防技术答疑解惑
扫码加好友即可拉群
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:M01N Team 天元实验室 天元实验室《AI安全事件 | Grok与Gemini双双幻觉误判米纳布公墓照片》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。











评论