文章总结: WinLOLBIN-GT数据集是专为检测WindowsLOLBin滥用行为而构建的大规模标注数据集,包含超过1000万个行为事件,涵盖certutil、mshta等常见工具的恶意与正常使用场景。在CharCNN模型测试中达到99%准确率,为蓝队提供SIEM规则优化、EDR模型训练等关键技术支持,建议企业建立命令行日志记录和异常调用检测机制以提升防御能力。 综合评分: 87 文章分类: 恶意软件,安全工具,威胁情报,安全运营,蓝队
WinLOLBIN-GT:超大型LOLBin行为数据集助力蓝队检测能力提升
Blake Chen Blake Chen
黑白之道
2026年6月13日 08:27 韩国
在小说阅读器读本章
去阅读
导语:近日,安全研究社区发布了一项重要的开源成果——WinLOLBIN-GT数据集。该数据集包含超过1000万个标记的行为事件,专门用于训练机器学习模型以检测Windows系统中的LOLBin滥用行为。在Char CNN模型测试中,该数据集达到了99%的准确率,为蓝队安全运营提供了宝贵的检测资源。
来源:本文编译自研究人员发布在Zenodo平台的论文《WinLOLBIN-GT: A Behavioural Ground Truth Dataset for ML-Based Detection of Windows LOLBIN Abuse》。
一、 LOLBin滥用检测的行业困境
1.1 什么是LOLBin
LOLBin(Living-Off-the-Land Binaries)是Windows操作系统自带的合法系统工具,如certutil、mshta、regsvr32、rundll32等。这些工具原本设计用于系统管理和运维任务,具有正常的系统功能。
然而,攻击者越来越多地滥用这些合法工具来执行恶意操作,原因在于:
天然信任:这些工具经过微软签名,传统安全软件通常不会拦截。
功能强大:许多LOLBin工具具备下载文件、执行代码、注册表操作等强大功能。
难以检测:由于这些工具的正常使用场景广泛,异常调用很难被识别。
1.2 检测难点
对于安全运营团队而言,LOLBin滥用检测面临以下挑战:
误报率高:简单的规则检测会产生大量误报,影响运营效率。
基线建立困难:不同组织的LOLBin正常使用模式差异很大,难以建立统一基线。
样本标注成本高:训练机器学习模型需要大量标注数据,而人工标注LOLBin行为成本极高。
模型泛化能力:攻击者可以通过混淆、参数变化等方式绕过基于规则的检测模型。
二、 WinLOLBIN-GT数据集详解
2.1 数据集构成
WinLOLBIN-GT是目前规模最大的LOLBin行为标注数据集,其构成如下:
数据规模:超过1000万个标记的行为事件,为训练深度学习模型提供了充足的样本。
数据来源:
- LOLBAS项目:记录了LOLBin的合法使用方法和攻击利用方式
- Atomic Red Team:红队评估工具库,包含了大量攻击模拟脚本
- 真实攻击命令:从威胁情报和公开报道中收集的实际攻击案例
- 正常运维场景:企业环境中LOLBin的正常使用日志
覆盖范围:数据集涵盖了certutil、mshta、regsvr32、rundll32、bitsadmin等主流LOLBin工具的恶意和正常使用场景。
2.2 标签体系
WinLOLBIN-GT采用多维度标签体系:
| 标签类型 | 说明 | | — | — | | 二进制文件类型 | certutil、mshta、regsvr32等 | | 调用场景 | 恶意使用、正常运维、测试场景 | | 命令参数 | 具体的命令行参数组合 | | 上下文特征 | 进程关系、网络行为等 |
2.3 模型性能
研究团队使用Char CNN(字符级卷积神经网络)进行测试,在未见过的新型二进制文件和命令模式下:
准确率:99%
精确率:98.7%
召回率:99.2%
这一结果表明,基于该数据集训练的模型具备良好的泛化能力,能够识别新型攻击手法。
三、 对国内蓝队的价值
3.1 直接受益群体
SOC安全运营中心:可以将该数据集作为模型训练的基准数据,提升对LOLBin滥用的检测能力。
安全研究人员:缺乏大规模标注数据的团队,可以直接使用该数据集进行研究和实验。
高校安全专业:可作为教学资源,帮助学生理解LOLBin检测的技术细节。
学生和安全爱好者:提供了宝贵的学习材料,可用于提升实战技能。
3.2 应用场景
SIEM规则优化:基于数据集分析结果,可以优化SIEM平台上的检测规则,减少误报。
EDR模型训练:可用于训练端点检测与响应系统的机器学习模型。
威胁狩猎:安全团队可以将数据集作为参考,进行主动威胁狩猎活动。
红蓝对抗:红队可以使用数据集了解最新检测方法,蓝队可以针对性地提升检测能力。
四、 检测方案建议
4.1 技术层面
基于WinLOLBIN-GT数据集的分析,建议蓝队建立以下检测能力:
命令行日志记录:确保所有进程的命令行参数都被完整记录,这是LOLBin检测的基础。
LOLBin基线建立:统计企业环境中各LOLBin工具的正常使用模式,建立行为基线。
异常调用检测:关注以下异常模式:
- LOLBin工具从非标准路径调用
- 命令行参数包含可疑模式(如编码、远程下载)
- 调用时间与业务周期不符
- 父子进程关系异常
网络行为关联:LOLBin滥用通常伴随网络通信,关联分析可有效降低误报。
4.2 运营层面
定期检测审计:定期审计现有LOLBin检测规则的有效性,及时更新规则。
事件响应流程:建立LOLBin可疑活动的事件响应流程,明确处置标准。
与MITRE ATT&CK对齐:将LOLBin检测规则与MITRE ATT&CK框架对齐,便于情报共享和体系化建设。
五、 数据集获取与使用
WinLOLBIN-GT数据集已在Zenodo平台免费开放,研究人员和安全团队可以直接下载使用。
数据集链接:https://zenodo.org/records/25434176
建议的使用流程:
- 阅读数据集说明文档,了解数据格式和标签体系
- 根据自身SIEM/EDR平台特点,选择合适的训练模型架构
- 在测试环境中验证模型效果
- 逐步部署到生产环境,持续优化
六、 总结
WinLOLBIN-GT数据集的发布,是安全研究社区对LOLBin检测领域的重要贡献。1000万级的大规模标注数据,解决了机器学习模型训练中最大的瓶颈——数据标注问题。
对于国内蓝队而言,建议充分利用这一资源:
- 将数据集纳入模型训练的基准数据
- 参考数据集分析结果优化检测规则
- 提升对无文件攻击和LOLBin滥用的识别能力
在网络威胁日益复杂的今天,开源共享的安全研究成果,正在成为蓝队防御能力提升的重要推动力。
版权声明:本文由华盟网原创发布,保留所有权利。配图由华盟网授权使用。
👇 点击阅读原文,访问我的网站
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:黑白之道 Blake Chen Blake Chen《WinLOLBIN-GT:超大型LOLBin行为数据集助力蓝队检测能力提升》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论