2026-01-27 00:30:56 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文针对动态防御网络环境下的攻击路径发现难题，提出了一种基于多智能体对抗学习的智能化渗透测试方法。通过构建攻击者与防御者博弈模型，改进PPO算法并引入防御响应感知能力，使攻击AI能动态调整策略。实验表明，该方法在应对动态防御时学习效率更高，能以更少尝试找到最优入侵路径，有效提升了自动化渗透测试的实战能力。 综合评分： 85 文章分类： 渗透测试,AI安全,红队

cover_image

优秀论文 | 陆军工程大学张国敏教授团队：基于多智能体对抗学习的攻击路径发现方法

原创

信息网络安全杂志信息网络安全杂志

信息网络安全杂志

2026年1月26日 17:26 上海

引用本文

张国敏, 张俊峰, 屠智鑫, 等. 基于多智能体对抗学习的攻击路径发现方法[J]. 信息网络安全, 2025, 25(8): 1254-1262.

ZHANG Guomin, ZHANG Junfeng, TU Zhixin, et al. An Attack Path Discovery Method Based on Multi-Agent Adversarial Learning[J]. Netinfo Security, 2025, 25(8): 1254-1262.

研究背景

攻击路径发现是智能化渗透测试的一项重要技术，模拟黑客对目标网络进行安全检测，而且要找到检测的最佳路径。譬如黑客要入侵一个公司网络，就像在走一个复杂的迷宫，而且这个迷宫不是一成不变的——保安会巡逻、门会突然上锁、警报会触发，这就是“动态防御”。传统的网络攻击模拟就像是在一个固定不变的迷宫里练习，一旦现实中的“门”关了，找不到路了。

研究方法

为了解决这个问题，可以设计出一套更聪明的AI渗透测试系统和安全防护系统，就像多个“虚拟黑客”和“虚拟保安”在电脑里不断“对打”。这些AI一边练一边学：攻击者尝试各种突破方法，防御者则拼命堵漏洞、做反应。通过这种“实战对抗”，攻击AI学会了观察防御方的“动作”，比如哪里加强了防护手段，哪里出现了漏洞，从而及时调整自己的进攻路线。

研究结论

本文改进了一种叫PPO的AI攻击路径学习算法，加入了“防御响应感知”能力，让AI不仅能记住过去的经验，还能“感知”当前防御的变化，像下棋一样预判下一步怎么走。结果证明，这种新方法比之前方法学习得更快，即使面对不断变化的防御策略，也能用更少的尝试找到入侵路径。

通信作者:

张俊峰 [email protected]

作者简介:

张国敏（1979—），男，山东，副教授，博士，主要研究方向为软件定义网络、网络安全、网络测量和分布式系统。

张俊峰（1995—），男，山东，硕士研究生，主要研究方向为网络安全。

屠智鑫（1997—），男，江苏，硕士研究生，主要研究方向为网络安全。

王梓澎（2000—），男，辽宁，硕士研究生，主要研究方向为网络安全。

阅读原文

长按识别二维码

信息网络安全

《信息网络安全》创刊于2001年，是由公安部主管，公安部第三研究所、中国计算机学会主办，面向国内外公开发行的国内首批信息安全类期刊之一，于2015年成为中国科技核心期刊，2017年成为中国科学引文数据库来源期刊，2018年成为中文核心期刊，2022年入选CCF计算领域高质量科技期刊分级目录。

中文核心期刊

中国科技核心期刊

中国科学引文数据库来源期刊

CCF计算领域高质量科技期刊

我们在不断努力和完善中，期待您的关注和支持！

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：信息网络安全杂志信息网络安全杂志信息网络安全杂志《优秀论文 | 陆军工程大学张国敏教授团队：基于多智能体对抗学习的攻击路径发现方法》