文章总结: NIST通过数学证明指出AI固定护栏无法完全抵御对抗性提示,建议转向持续监测更新模式;工信部专项整治APP违规跳转行为,要求企业自查整改;CNCERT警示AI智能体Skills存在越狱与挖矿风险,提出分层防范建议;行业需应对AI编码工具普及带来的安全治理滞后问题,并关注攻击路径擦除等新安全范式。 综合评分: 85 文章分类: AI安全,政策法规,漏洞分析,安全运营,解决方案
NIST发布数学证明:AI固定护栏无法抵御所有对抗性提示,持续监测成安全新方向;工信部开展专项整治,严管APP违规窗口与诱导跳转行为|牛览
安全牛
2026年6月10日 12:08 北京
在小说阅读器读本章
去阅读
点击蓝字 关注我们
新闻速览
- 工信部开展专项整治,严管 APP 违规信息窗口与诱导跳转行为
- NIST发布数学证明:AI固定护栏无法抵御所有对抗性提示,持续监测成安全新方向
- CNCERT 发布安全公告,警示 AI 智能体 Skills 存在越狱与挖矿双重风险
- AI 编码工具普及率高达 97%,安全治理体系严重滞后
- Anthropic 双版本 AI 模型上线,分层管控防范网络攻击滥用风险
- 英国政府向Apple与Google下达三个月整改令:设备级屏蔽儿童裸照功能成全球首例
- 法国政府通讯平台Tchap遭账户劫持攻击
- 从补丁困局到路径擦除:打破传统漏洞修补防线的新安全范式
- 常态偏见埋下安全隐患,警惕网络犯罪者成为企业 “被动审计方”
- NSO Group 再违规发起鱼叉式钓鱼,WhatsApp 申请法庭裁定其藐视禁令
特别关注
工信部开展专项整治,严管 APP 违规信息窗口与诱导跳转行为
2026 年 6 月 9 日,工信部信息通信管理局召开专题会议,针对 “618” 大促期间 APP 违规跳转乱象开展专项规范工作新华网。近期不少 APP 借助开屏弹窗、高灵敏度 “摇一摇” 等形式,诱导或误导用户触发页面跳转,侵犯用户合法权益。
会议通报了日常巡查发现的违规线索,要求互联网平台、智能终端企业立即开展全面自查整改,对存量及待上线的信息窗口样式逐一审核,搭建在线巡查机制,及时清理违规内容。同时督促企业健全内部合规体系,严守运营边界。
下一步,工信部将落实常态化检测监测机制,针对违规主体依法采取约谈、通报、下架 APP 等处罚措施,从监管层面压实企业主体责任,整治 APP 信息窗口各类违规行为,进一步规范行业秩序,保障网络使用安全,为消费者营造安全合规的网络环境中华人民共和国工业和信息化部。
原文链接:
https://mp.weixin.qq.com/s/K4pi5npYZ9oVXnNl1E3yMA
CNCERT 发布安全公告,警示 AI 智能体 Skills 存在越狱与挖矿双重风险
2026 年 6 月 9 日,国家互联网应急中心 CNCERT 发布安全公告,提醒公众及运营单位警惕公开传播的恶意 AI 智能体技能包(Skills),此类工具主要存在大模型越狱、非法挖矿两类风险。
公告列举典型恶意案例,Skill godmode 依靠替换系统提示、输入混淆等方式实现大模型越狱,可诱导模型输出违法内容,不仅会造成账号封禁、经济损失,还易引发隐私泄露与法律风险。Skill Bonero-Miner 内置挖矿程序,可驱使设备运算挖矿,其产出的加密货币依托环签名、隐身地址实现交易匿名,易使用户被动卷入洗钱活动,同时高负载运算会造成设备卡顿、硬件损耗。
针对上述风险,公告给出分层防范建议。个人用户需仅从官方渠道获取 Skills,拒绝越狱类工具,遵循最小权限原则并定期清理无用组件,开启多因素认证防护账号。企业应搭建 Skills 准入白名单,上线前完成安全检测,采用隔离网络部署智能体,依据数据敏感度实施分级管理、数据脱敏与临时授权。
本次公告同步公布第二期恶意 Skills 清单,多方网络安全企业为本次研判提供技术支持,行业需强化审查与监控,全面抵御相关威胁。
原文链接:
https://mp.weixin.qq.com/s/J68BSgEGWbaHjrnU9melhQ
热点观察
NIST发布数学证明:AI固定护栏无法抵御所有对抗性提示,持续监测成安全新方向
美国国家标准与技术研究院(NIST)发布最新研究成果,首次从数学层面证明,任何有限且固定的AI安全护栏(Guardrails)都无法对所有可能出现的对抗性提示(Adversarial Prompts)保持普适鲁棒性。这一结论为AI安全领域从静态防护转向“持续监测与更新(Continuous-Monitor-and-Update)”模式提供了理论依据。
该研究由NIST对抗机器学习专家Apostol Vassilev完成。研究指出,AI系统的安全目标是确保模型仅执行预期任务,而不被攻击者诱导产生违规或恶意输出。然而,数学证明表明,不存在一套有限规则能够永久阻止所有未来可能出现的对抗性攻击。随着攻击者不断设计新的提示方式,固定护栏最终都可能被绕过。
值得关注的是,该证明借鉴了著名数学家Kurt Gödel提出的“不完备性定理”逻辑框架。Gödel理论表明,任何足够复杂的形式系统都存在无法在系统内部被完全证明或排除的命题。NIST研究将这一思想扩展至AI安全领域,说明固定安全规则无法穷尽所有潜在攻击场景,因此不存在“万能护栏”。
基于这一结论,NIST建议行业将AI安全建设重点从一次性部署防护措施,转向持续监测、持续评估和持续更新机制。该模式要求安全团队不断发现新的攻击技术、调整防御策略,并动态更新模型安全控制,以应对不断演化的威胁环境。
研究成果不仅揭示了生成式AI安全防护的理论边界,也为未来AI治理、风险管理和安全运营体系建设提供了重要参考,强调AI安全应被视为持续演进的过程,而非可以一次性解决的问题。
原文链接:
https://www.nist.gov/news-events/news/2026/06/nist-mathematical-proof-supports-transition-continuous-monitor-and-update
常态偏见埋下安全隐患,警惕网络犯罪者成为企业 “被动审计方”
随着网络攻击持续增长,安全专家呼吁企业改变“没有告警就等于安全”的认知偏差(Normalcy Bias),并将网络犯罪分子视为一种特殊的“审计力量”,从攻击事件中发现自身安全体系的真实弱点。
ESET旗下WeLiveSecurity指出,许多组织将缺乏安全告警视为风险可控的证明,但现实情况并非如此。英国国家网络安全中心(NCSC)在《Annual Review 2025》中披露,截至2025年8月的一年内,共处理204起“国家级重大网络攻击(Nationally Significant Cyberattacks)”,较前一年的89起增长130%;429起事件中有18起被认定为“高度重大(Highly Significant)”,同比增长50%。
文章认为,攻击者往往比企业内部团队更善于发现配置错误、暴露资产和流程缺陷。从这个角度看,每一次入侵尝试都相当于一次未经授权的安全审计。区别在于,传统审计和渗透测试(Penetration Testing)旨在帮助企业修复问题,而网络犯罪分子则试图利用这些漏洞获利。
为此,企业不应仅关注防御工具的部署情况,而应重点分析攻击者的行为路径,包括其如何获得初始访问权限、横向移动、提升权限以及绕过现有控制措施。这些信息能够帮助安全团队识别监测盲区、改进检测规则,并优化事件响应流程。
文章强调,现代网络安全建设的核心不再是追求绝对安全,而是建立持续验证、持续改进的安全运营机制。通过对真实攻击事件和未遂入侵的复盘分析,企业能够从“对手视角”评估自身防御能力,将网络攻击转化为提升安全成熟度的重要机会。
原文链接:
https://www.welivesecurity.com/en/business-security/cybercriminals-auditors-never-hired/
AI 编码工具普及率高达 97%,安全治理体系严重滞后
2026 年 3 月,Black Duck 联合 UserEvidence 针对 831 名软件开发与 DevOps 从业者开展调研,结果显示 AI 编码助手普及率已达 97%,但仅 30% 企业建立完整管控机制,治理短板制约工具价值发挥。
市场中 GitHub Copilot、Claude Code 为主流工具,使用率分别达 83%、63%。92% 的团队表示 AI 编码工具提升了研发效率,开发者人均每周可节省 8 小时工作时间。但隐患随之显现,九成团队在使用中遭遇各类问题,52% 需投入精力人工审代码,51% 卡在安全测试环节,48% 要对 AI 生成代码二次修改。AI 代码占比超半数的团队里,57% 认为漏洞修复是最大瓶颈。
数据表明,完成规范化治理的团队,效率大幅提升比例达 90%,远高于无完善管控的团队。目前仍有 25% 的企业未制定 AI 编码使用规范,64% 的团队担忧工具引入安全缺陷。多数从业者希望引入 AI 安全检测工具,同时坚持保留人工审核环节。
业内安全专家提示,AI 生成代码易出现认证漏洞、密钥泄露、权限超标等问题,还会引入未知外部依赖,已成为软件供应链新风险点。行业普遍认为,企业应将 AI 辅助开发纳入攻击面管理,搭建统一标准与管控流程,守住代码安全底线,避免效率红利被安全问题抵消。
原文链接:
https://www.infosecurity-magazine.com/news/ai-coding-adoption-governance-lags/
安全事件
法国政府通讯平台Tchap遭账户劫持攻击
法国政府加密即时通信平台Tchap近日遭遇账号劫持攻击。法国政府数字事务局DINUM确认,ANSSI在周日检测到入侵活动,攻击者利用一个被攻陷的合法用户账号访问Tchap,并可能读取该账号权限范围内的会话内容。DINUM已封禁相关账号,以切断攻击者的持续访问,并启动event logs分析,以确认受影响会话及可能被exfiltrated data的类型。
Tchap由DINUM与法国网络安全机构ANSSI于2018年合作开发,基于去中心化Matrix protocol,面向法国公共部门使用。自法国总理François Bayrou在2025年8月要求公务员工作通信使用Tchap,并禁止使用外国通信应用后,该平台月活用户已超过30万,Google Play下载量超过50万。
DINUM已向法国数据保护机构CNIL通报事件,原因是部分用户在攻击者可访问的对话中分享的personal data可能被暴露。官方同时提醒所有用户,public chat rooms可被任何用户发现和加入,且不进行加密,因此不应在其中交换个人、敏感或机密信息,相关内容应限制在private chat rooms中。
尽管DINUM尚未披露更多技术细节,一名威胁行为者周末声称对此负责,并称其通过social engineering攻陷教育分片matrix.agent.education.tchap.gouv.fr上的有效账号。攻击者还声称窃取了hardcoded LDAP credentials、超过13.5GB的文档和媒体文件,抓取近65万条消息,以及超过7.3万个账号的信息,包括email addresses、组织信息、会议链接、账号和device metadata。其还声称,Tchap中共享文件可在无需token的情况下下载,暴露出媒体文件访问控制可能存在系统性风险。
原文链接:
https://www.bleepingcomputer.com/news/security/french-govt-messaging-service-breached-in-account-hijacking-attack/
NSO Group 再违规发起鱼叉式钓鱼,WhatsApp 申请法庭裁定其藐视禁令
2026 年 6 月 8 日,WhatsApp 对外宣布,已成功拦截以色列间谍软件厂商 NSO Group 发起的新一轮鱼叉式钓鱼攻击,并已向美国法院提请裁定该公司藐视法庭,因其违反针对其的永久禁令。
此次攻击依托社会工程学手段开展,攻击者诱导用户点击恶意链接,跳转至 WhatsApp 外部恶意网站,攻击模式与 NSO Group 过往的一键式钓鱼活动一致。WhatsApp 还查获并封禁了该公司用于攻击测试的账号及群组。
双方的司法纠纷由来已久。此前 Meta 发现 NSO Group 借助 Pegasus 零点击间谍软件入侵约 1400 名 WhatsApp 用户设备,受害者包含人权活动人士、记者、外交官等。历经六年诉讼,法院去年裁定 NSO Group 需赔付超 1.67 亿美元赔偿金。2021 年,该企业已被列入美国商务部实体清单。
目前 NSO Group 仍在对永久禁令提起上诉,12 家民权组织已提交法庭之友意见书反对其上诉。WhatsApp 已向间谍软件问责计划提供资金支持,助力民间机构对抗间谍软件威胁。同时平台公布了本次攻击涉及的三个域名,提醒用户警惕邮件、短信、WhatsApp 消息等多渠道来袭的同类攻击。
原文链接:
https://www.infosecurity-magazine.com/news/whatsapp-nso-group-spearphishing/
安全攻防
从补丁困局到路径擦除:打破传统漏洞修补防线的新安全范式
随着AI辅助漏洞发现与自动化漏洞利用技术的高速发展,传统依赖打补丁的应急式防御模式已难以应对瞬息万变的风险格局。根据安全从业者Christopher Frenz观点,目前漏洞修补作为主要防御手段具有根本性缺陷——它是反应式的,只有在漏洞被发现并由厂商发布补丁后才能执行,这一过程往往滞后于攻击者利用漏洞的速度。尤其是在前沿大模型如Claude Mythos能将漏洞从披露到可利用的时间压缩至数小时的背景下,这种时滞造成了防御劣势的急剧扩大。
多数安全框架,如持续威胁暴露管理(CTEM),通过优先级排序和暴露映射来优化补丁队列,但这类方法本质上仍是管理积压而非根本消除危险途径。补丁通常只针对某个特定漏洞关闭一条攻击路径,却无法改变系统整体的“攻击可达性”。当同一产品或协议出现新的零日漏洞时,这些路径往往会重新开放。
为突破这一循环,提出了一种更具决定性的方法:攻击路径擦除(Attack Path Erasure)及其核心指标路径擦除率(PER,Path Erasure Rate)。该理念主张抛弃逐条修补漏洞的做法,而是通过架构性安全策略,从根本上减少系统内可被利用的攻击路径。例如,通过约束操作系统默认行为,禁止浏览器或办公应用随意启动子进程,或禁用遗留协议LLMNR/NetBIOS等,这类策略能在宿主系统层面“抹除”大类攻击路径,显著提升PER,从而对抗攻击者在多次漏洞出现间的快速利用。
实施这种减法安全(subtractive security)需要回归系统工程思维,即设计和加强原生基础设施边界,使之构成不可逾越的天然防线。通过最低权限、严格主机出口策略,以及阻断不受信任代码在敏感目录执行等措施,能在不依赖特定补丁的情况下压缩潜在攻击面。与之相对,传统补丁模型在攻击者持续创新利用手段的现实下,已不再能提供长期性防护。
原文链接:
https://www.helpnetsecurity.com/2026/06/09/subtractive-security-attack-path-erasure/
产业动态
英国政府向Apple与Google下达三个月整改令:设备级屏蔽儿童裸照功能成全球首例
英国政府近日对包括Apple和Google在内的主要科技公司发出最后通牒,要求这些企业在未来三个月内,在智能手机和平板电脑上部署设备级别的检测与屏蔽功能,阻止未成年人拍摄、接收或查看儿童裸体图像。若未能按期落实,政府将推进立法强制执行,并可能对公司及高管施加罚款甚至刑事责任。
英国首相Keir Starmer在伦敦科技周(London Tech Week)的演讲中强调,这一举措旨在遏制未成年人在设备端流通裸照的现象,并打击利用这些内容进行诱骗、勒索等在线侵害行为。他指出这不是“技术无法解决的挑战”,并要求科技公司启用内置技术或开发技术解决方案,在操作系统层面对此类内容进行筛查和拦截。
根据政府发布的数据,在2024年涉及儿童性侵害报告的案件中,超过90%的图像为儿童本人生成,这凸显出当前在线环境中自发生成的敏感内容正成为严重问题。为了保护未成年用户的安全,英国政府提出了覆盖现有及新出售设备的要求,设备需要默认阻止针对未成年人识别出的裸露图像,成人用户则可通过年龄验证机制访问相关内容。
技术层面,这类保护措施通常依赖于客户端图像识别算法,通过机器学习模型在本地对图像内容进行分析,从而识别并阻断潜在危险内容。这种方案的核心优势在于图像处理发生在设备本地,据政府说明不会涉及数据上报、监控或共享。与此同时,政府希望这些机制能够适用于第三方应用、内建摄像头功能和浏览器等全部系统组件,不仅限于部分服务。
尽管此举受到儿童保护组织的支持,但也引发了部分隐私倡导者的担忧,认为常态化的内容扫描可能引导更广泛的监控和审查风险。这一争议反映出在安全保护与隐私自由之间的政策权衡仍存在激烈辩论。
英国此番动作不仅是针对设备端裸照防护设定具体时间表,也预示着该国在保护未成年人免受数字环境有害内容侵害方面,将继续推出更全面的监管措施。
原文链接:
https://therecord.media/uk-gives-big-tech-3-months-to-create-device-controls-kid-images
新品发布
Anthropic 双版本 AI 模型上线,分层管控防范网络攻击滥用风险
近日,Anthropic正式发布两款新模型——Claude Fable 5和Claude Mythos 5。其中,Claude Fable 5面向公众开放,而Claude Mythos 5仅向网络安全机构、关键基础设施运营方及部分生物研究人员定向提供。
据了解,Claude Mythos 5是Anthropic目前能力最强的模型,延续了此前Mythos Preview的技术路线。该模型在软件工程、漏洞发现、复杂推理、视觉理解和科研任务等方面表现突出,但由于其在网络安全领域具备较强的漏洞挖掘和攻击能力,Anthropic担心其被恶意利用开发自动化攻击工具,因此未向公众开放,而是通过“Project Glasswing”计划向可信合作伙伴提供有限访问权限。
此次同步推出的Claude Fable 5与Mythos 5采用相同核心架构,但增加了专门的安全护栏(Guardrails)。当用户提出涉及网络安全、生物学或化学等高风险领域的问题时,系统会自动拦截相关请求,并将其转交给能力较低但风险更可控的Claude Opus 4.8处理,以降低潜在滥用风险。
Anthropic表示,Fable 5是该公司迄今公开发布能力最强的模型,在软件开发、知识工作、科学研究和视觉任务等多项基准测试中达到领先水平,尤其在长链路、复杂任务上的优势更加明显。公司还透露,在超过1000小时的内部安全测试和外部红队评估中,研究人员未发现能够稳定绕过其安全机制的通用越狱方法。
价格方面,Claude Fable 5和Claude Mythos 5均采用统一计费标准:每百万输入Token收费10美元,每百万输出Token收费50美元。Anthropic表示,未来将持续优化安全过滤机制,在保障模型能力释放的同时控制网络安全和生物安全风险。
原文链接:
https://www.wired.com/story/anthropic-releases-claude-fable-5-mythos-5/
联系我们
合作电话:18610811242
合作微信:aqniu001
联系邮箱:[email protected]
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:安全牛 《NIST发布数学证明:AI固定护栏无法抵御所有对抗性提示,持续监测成安全新方向;工信部开展专项整治,严管APP违规窗口与诱导跳转行为|牛览》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论