文章总结: 本文分享在缺乏GPU资源的情况下利用回收笔记本训练大模型解决敏感数据泄露问题的实战经验。作者通过流量拦截和模型审查技术,实现对企业敏感信息的AI防护,并列举多个行业泄密案例说明需求场景。文章指出开源模型需微调才能有效识别合规数据,并预告后续将介绍完整训练流程。 综合评分: 86 文章分类: 数据安全,应用安全,安全开发,AI安全,安全工具
贫瘠的土壤也能长出鲜花(在笔记本上训练大模型)
原创
青木生长 青木生长
青木生长
2026年5月14日 23:24 江苏
在小说阅读器读本章
去阅读
写给职场人、喜欢真实经历的读者。
本文阅读时间 5 分钟。
即使是贫瘠的土壤,也能长出鲜花。
最近部门在招聘AI算法岗,由于一直没有招到,导致项目面临卡壳,于是我就又被临危受命上去做“技术攻坚”了。
这次由于需要微调模型,多次打报告申请 GPU 但都没下文。后来才知道我们整个部门100人一块 GPU 都没。。。不过说来,从资源也可看出这个项目属于预研性质并不太重要,只是在人员紧张的时期,让我做来试试运气。。。
既然不给资源,那就自己找,看到 IT 部门最近回收了不少笔记本,惊喜发现有带显卡的型号,清清灰就申请过来了。
我把涉及到公司业务的部分去掉,只讨论泛产品方向和纯技术内容。各位可以放心阅读。
这个项目的前提是端侧大模型技术日渐成熟,另一方面终端硬件性能不断提高,例如我跑过鸿蒙电脑的AI模型能力,软硬件支持已经很好了。
产品方面,以模型资产、数据资产、Agent 工具链、交互层行为、AI供应链系统等所引领的新安全产品的重新价值锚定,大洗牌过后,传统安全产品被淘汰,这次像 AI XDR、数据安全等是当下热门方向。
这里面,端侧模型的引入,给终端产品更多的想象力和创意空间,以前想做但做不出的、效果不佳的现在就可以转向基于模型的实现。比如其中最常见、最基础的敏感数据泄露问题,在之前可能只有基于关键字匹配的方式,但总有绕过的方法。引入大模型后就可以捕捉语义提高检测效果。
简单来说,回想一下最近是不是有给 AI 下过包含个人信息的指令?或让 AI 改造过包含明文密码的项目代码?或者把客户信息发给AI,整理成文档?这些动作可能在泄露机密,并且当前毫无好的预防手段(截至当前我还不知道有哪些产品已经可以,如有还请告知)。例如可能的提示词如下。
帮我查一下XXXXX的账户余额,她的卡号尾号是 XXXX,身份证号码是 XXXXXXXXXXXXXXXXXXX,预留密码是她生日。
帮我记一下那个 密 码:阿德敏 @ 贰 零 贰 陆 !”
既然要拦截并判断发出去的信息是否包含敏感信息,就是在用户电脑上抓到发给 AI 的请求流量,并能在请求发出去之前,按规则决定是放行还是拦截,或者是自动脱敏后放行。
我很快使用 AI 编写出了第一版,可以安装到浏览器例如 chrome 和 edge 上面,拦截发往网络 AI 接口的流量,并修改掉提问内容。这个方案原理是注入网页中的 fetch 和 XMLHttpRequest 对象从而劫持网络请求并修改请求体。
但这个方案有个问题,只对浏览器有效,对 CC、Cursor、open-calw、SDK 调用、Cli 工具等非浏览器环境都无效。
既然需要拦截全部流量,就需要运行在网络层。代码不展开,读者可以使用 AI 轻松写出来。原理是流量重定向 + 中间人解密 + 请求重写。
还需要配套一个大模型对拦截流量做审查。
企业认为的敏感数据长什么样?不仅是包含身份证、手机号、家庭住址的PII个人隐私,包括企业合规流程认定的例如GDPR、《数据安全法》,《数据安全保护条例》等三法相关规定、还包括所在垂类行业和内部特定的敏感数据。下面是一些不同行业客户的敏感泄密提示词数据。
- 整理项目预算:‘XX’总预算 1.2 亿,其中给公关的预留了 15%,这部分在账面上要挂成‘技术咨询费’。
- 整理成表格:患者XXX(身号XXXXXXXX),确诊为XXXX,过敏史为XXXX,目前在XXX病房使用XXXX。主治医生是XXXX。
- 为什么连接不上 XXXXXXXX?报错是 Access denied for user ‘XXXX’@’%’ using password ‘XXXXX’,对应的内网路径是 /var/lib/mysql/log/binlog.0001。
- 写一段离职面谈记录:研发组XXXXX(工号XXXXX)因对2025年Q4季度年终奖发放标准不满意,且其Base从30K降到25K,决定跳槽至竞争对手那边。
- Net Profit was 8.5M RMB, but Tax ID XXXXXXX shows a discrepancy in Q2 deductions for R&D.
- 帮我写一段针对’XXXXXX’项目的投标方案,要体现出我们独有的’XXXXXXX’模块,这是去年申请的专利号 XXXXXXXX.X。
- 分析以下可疑交易:账户 XXXXXXX 的持有人叫’XXXXXX’,他在过去 48 小时内从XXXX的账户接收了三笔 50 万美金的汇款,备注是’XXXX’,但他的纳税号 XXXXXX是注销状态。
- 查下这个单号 XXXXX…,收件人是XXXXXX 机房的XXXXXX,里面是关于‘XXXXXX’的采购价。
直接使用开源模型效果怎么样。用 qwen2.5-1.5b-instruct 在上面的数据上跑一遍。
效果很差,存在格式输出不全、遗漏、过度提取、多次输出不稳定等各种问题。这是因为这个模型是基于通用任务训练的,需要做微调。
完整的模型训练在下一篇。
To Be Continued
往期回顾
#
逆向解密某云安全产品漏洞扫描模块离线规则库
#
一次100%免杀Mimikatz的探索
#
开始你的第一个0Day漏洞挖掘
多种方式自查是否被公司监控(Windows,MacOs,Android)
如何把肯德基订餐电话写到证书的签名值和公钥数据里
一文精通数字证书的签名算法
一步一步设计高安全交互算法(保证有收获)
密码学浅入浅出ECIES之椭圆曲线加密算法
震惊!远程主机信息还可以这么拿——网络空间测绘技术
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:青木生长 青木生长 青木生长《贫瘠的土壤也能长出鲜花(在笔记本上训练大模型)》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论