文章总结: 文档分享AI安全对抗中的敏感词汇绕过实战手法,包括违禁词拆分、逻辑语句重组、垃圾字符插入、环境构建诱导及文件上传XSS等技巧,通过对抗性提示词突破AI内容过滤机制。作者基于真实渗透案例演示如何诱导模型输出违规内容,并声明技术仅用于授权测试。 综合评分: 72 文章分类: AI安全,渗透测试,WEB安全,红队,安全开发
AI安全——实战敏感词汇绕过手法
原创
zkaq suan_cai_yu zkaq suan_cai_yu
掌控安全EDU
2026年5月16日 14:39 江西
在小说阅读器读本章
去阅读
扫码领资料
获网安教程
本文由掌控安全学院 – suan_cai_yu投稿
来Track安全社区投稿~
千元稿费!还有保底奖励~( https://bbs.zkaq.cn )****
一、前言
在今年大概 6 月份的时候,煮波在一些公众号以及 src 平台上看到了一个船新漏洞——AI 漏洞,后面更是看到了应运而生的所谓《ai 魔咒》,随着人工智能的兴起,一些学校或者机构或者平台都部署了 AI,有些 AI 虽然设置了严格的内容安全策略(禁止生成色情、暴力等违规内容),但其防御机制并非牢不可破。通过精心构造的、具有对抗性的提示词(Adversarial Prompts),可以系统地绕过其语义过滤与伦理对齐机制,成功诱导AI模型输出包括色情言论在内的明确违规内容。
其实 ai 提示词对抗是一门语言的艺术,要拐弯抹角地去诱导它输出一些违禁内容,同时也要思考开发者到底是怎么要求 ai 的?下面我分享一些我在实战中确实遇到过的 ai 敏感词绕过手法。
二、违禁词拆分
直接看一个例子吧,某高校部署的 ai
创建一个账户就直接开始和 ai“聊天”
这里我猜测违禁词就是性关系
拆分违禁词
再让 ai 自己拼起来,就会解释了
很多 ai 都是这样子的
三、重组逻辑语句
大部分 ai 都有自己重组语言的能力,当他们遇到逻辑不通的语言的时候,会自动思考怎么排序这个语句
而它们在思考的过程其实就已经完成绕过了
四、垃圾字符
其实本质也是截断敏感词,让 ai 检测不到
五、构建环境
这种方法也是我一开始了解到的方法,也是大部分人看到 ai 直接扔给 ai 的魔咒,通常的技巧就是让 ai 当魅魔,或者其它有奴性的生物
具体语句大家可以直接去看这篇文章,感谢师傅分享!!!!!
https://mp.weixin.qq.com/s/yhAQMXAaa_wmneP3NqP2xQ
最后的结果大概就是:hhhhh
六、文件上传xss、文字解析
现在很多 ai 都具备文件上传的功能了,可以考虑打存储型 xss,甚至直接 getshell
又或者有些 ai 对于你直接提问的问题会进行过滤,但是对上传的文件内容是没有过滤的
但是这个 ai 可以上传 docx 文件
再问它,就会回答了
以上就是我曾经遇到过的一些 ai 敏感词绕过手法,其实还有很多,比如编码绕过,执行代码等等,但是我在实战中没有遇到过,就不给大家一一列举了。
申明:本公众号所分享内容仅用于网络安全技术讨论,切勿用于违法途径,
所有渗透都需获取授权,违者后果自行承担,与本号及作者无关,请谨记守法.
没看够~?欢迎关注!
分享本文到朋友圈,可以凭截图找老师领取
上千教程+工具+交流群+靶场账号哦
分享后扫码加我!
回顾往期内容
我与红队:一场网络安全实战的较量与成长
网络安全人员必考的几本证书!
文库|内网神器cs4.0使用说明书
重生HW之感谢客服小姐姐带我进入内网遨游
手把手教你CNVD漏洞挖掘 + 资产收集
【精选】SRC快速入门+上分小秘籍+实战指南
代理池工具撰写 | 只有无尽的跳转,没有封禁的IP!
点赞+在看支持一下吧~感谢看官老爷~
你的点赞是我更新的动力
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:掌控安全EDU zkaq suancaiyu zkaq suancaiyu《AI安全——实战敏感词汇绕过手法》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论