文章总结: 该论文系统综述了多智能体强化学习(MARL)在水下智能通信系统建模与运行中的应用,重点分析了MARL如何解决水下网络在路由、资源分配、网络安全及多AUV协同控制等场景中的分布式优化问题,并探讨了面向通信受限环境的算法创新与未来挑战。 综合评分: 88 文章分类: 解决方案,技术标准
团队科研成果分享-71
网络与安全实验室
2026年5月17日 05:00 江苏
在小说阅读器读本章
去阅读
团队科研成果分享
2026.05.11-2026.05.17
标题: Modelling and Operation of Underwater Intelligent Communication Systems: A Survey of Multi-Agent Reinforcement Learning-Based Approaches
期刊: IEEE Communications Surveys & Tutorials.
作者: Guangjie Han*, Shengchao Zhu, Chuan Lin, Jinfang Jiang, and Yun Hou.
分享人: 河海大学——朱胜超
01
研究背景
BACKGROUND
研究背景
随着6G“空天地海”一体化通信体系的发展,水下智能通信系统正在从单纯的数据传输网络,逐步演变为支撑海洋观测、资源勘探、水下巡检、灾害预警和协同作业的重要基础设施。水下无线传感器网络、水下声学网络以及AUV集群等系统,需要在复杂海洋环境中长期工作,并完成感知、通信、协同决策和任务执行。
与陆地无线网络相比,水下网络面临更明显的环境约束。水声信道传播速度低、传播时延长,带宽通常有限,链路质量容易受到多径、噪声、水流、温盐变化和节点运动影响;同时,水下节点多依赖电池供能,部署后维护困难,能量约束十分突出。这些因素导致水下网络很难依赖稳定链路和全局状态来完成实时优化。
传统集中式控制、静态启发式协议或固定规则方法,在小规模、环境较稳定的场景下仍然有价值,但当网络中存在多个AUV、传感器节点、浮标和中继节点时,单个节点的发送、转发、功率控制或路径选择都会影响其他节点的通信质量、能耗和任务收益。换言之,许多水下通信优化问题天然具有“多智能体耦合”特征。
多智能体强化学习(MARL)正好提供了一种面向分布式协同决策的思路。每个水下节点可以被看作一个智能体,基于局部观测选择动作,并通过长期奖励学习如何在不确定环境中协同完成通信、路由、资源分配、网络安全和移动协同任务。本文所分享的论文并不是提出某一个单一算法,而是系统梳理了MARL在水下智能通信系统建模与运行中的应用脉络,回答“哪些水下通信问题适合用MARL解决,以及未来还面临哪些关键挑战”。
02
关键技术
TECHNOLOGY
关键技术
本文的核心技术主线可以概括为“水下通信约束 + 多智能体协同学习 + 网络运行优化”。论文首先解释水下网络为什么不同于陆地无线网络,然后从MARL基本原理、学习范式和代表算法入手,进一步把水下通信优化任务划分为静态水下通信网络和动态水下移动机器人网络两大类,最后总结面向通信受限环境的高级MARL方法。
图1 论文整体结构与技术路线
从图1可以看出,论文不是简单罗列MARL算法,而是围绕“水下网络组织与通信优化”展开。其技术框架从背景动机出发,先介绍水下通信系统的特点和MARL基础,再分别讨论静态通信网络中的路由、资源分配、MAC、安全与混合通信,以及动态移动网络中的多AUV编队、目标跟踪、智能控制和协同数据处理,最后上升到软件定义架构、训练效率、鲁棒性、可扩展性和可解释性等未来问题。
该论文的创新和贡献主要体现在以下四点:
第一,论文将MARL作为主线,专门面向水下智能通信系统进行综述,弥补了以往综述偏向一般MARL、一般水下通信或单智能体强化学习的不足。
第二,论文从通信问题本身出发,明确哪些水下通信优化任务具有天然多智能体属性,例如分布式MAC调度、协作转发、多流路由、AUV辅助数据采集、拓扑控制、声光混合链路切换和安全信任管理。
第三,论文对MARL在静态UWSN和动态多AUV网络中的应用进行了分类,覆盖路由、资源分配、网络安全、协同编队、避障、目标跟踪等典型场景。
第四,论文进一步讨论了面向水下通信受限环境的算法创新,包括CTDE范式、图神经网络/注意力机制、软件定义MARL架构、奖励函数设计、样本效率提升、鲁棒性和跨规模部署等。
其中最关键的思想是:水下网络中的很多动作并不是“每个节点各做各的”。例如,一个节点选择占用信道,会影响邻居节点的碰撞概率;一个AUV选择作为中继,会影响其他数据流的时延与能耗;一个节点的信任评估或安全防御策略,也会改变全网的路由可靠性。因此,MARL的价值不只是“引入深度学习”,而是把这些相互影响的决策放到统一的多智能体协同学习框架中。
03
算法介绍
ALGORITHMS
算法介绍
(1)水下MARL建模思想
图2 水下环境与MARL建模关系
在水下MARL建模中,AUV、无人船、浮标、传感器节点或中继节点都可以被视为智能体。每个智能体能够观测自身和邻居相关状态,例如剩余能量、链路质量、缓存占用、邻居可用性、位置变化和局部任务需求;随后选择动作,例如是否发送数据、选择哪个中继、调整发射功率、切换通信模式或改变运动路径。环境根据联合动作更新网络状态,并返回体现通信质量和任务收益的奖励。
论文重点强调CTDE范式,即“集中训练、分散执行”。在训练阶段,可以利用仿真环境、离线日志或相对完整的全局信息训练策略和价值函数;但在真实部署时,每个水下节点只需要依靠本地观测做决策。这一点非常适合水下场景,因为真实海洋环境中很难长期保持高带宽、低时延的全局通信。
从算法类型上看,论文梳理了值函数分解方法(如VDN、QMIX、QTRAN)、多智能体Actor-Critic方法(如MADDPG、MAPPO、MAAC)以及结构感知扩展方法(如图神经网络、注意力机制和迁移学习)。这些方法的共同目标是缓解多智能体环境中的非平稳性、信用分配困难、局部观测不足和规模扩展问题。
(2)静态水下通信网络优化
图3 MARL在水下路由决策中的示例
对于静态或准静态的水下无线传感器网络,MARL主要用于路由、MAC接入、资源分配、安全防御和混合通信模式选择。以路由为例,传统最短路径或固定代价路由在水下网络中容易失效,因为链路质量、传播时延、节点能量和缓存状态都在变化。MARL可以让节点根据局部链路和邻居状态学习长期最优转发策略,而不是只看眼前距离或单跳质量。
图4 MARL用于水下资源分配的示例
在资源分配问题中,智能体需要在传输功率、时隙、信道、缓存和能量之间做权衡。一个节点提高功率可能提升自身链路质量,却会增加能耗和干扰;一个簇头节点承担更多转发任务,可能提高全网连通性,但也会加速自身能量耗尽。MARL通过长期奖励将吞吐量、时延、能耗、公平性和网络寿命等目标联合起来,使节点学会更加稳健的协同策略。
在网络安全与鲁棒性方面,论文指出水下网络存在窃听、干扰、节点失效、经验回放污染和策略网络失效等问题。MARL可将防御过程建模为多智能体交互,使节点在面对攻击者或异常环境扰动时,自适应调整转发、功率、信任更新和访问控制策略,从而提高系统在恶劣环境中的持续运行能力。
(3)动态水下移动机器人网络
图5 MARL多AUV编队与避障示例
当网络中包含AUV、滑翔机或水下机器人时,通信优化不再只是协议层问题,还会与运动控制、编队保持、目标跟踪和避障高度耦合。例如,一个AUV的路径会影响它与其他节点的通信距离、链路稳定性和数据采集机会;多AUV协同跟踪目标时,既要保持队形,又要避免碰撞,还要维持必要的通信连接。
论文将动态水下移动网络中的MARL应用归纳为多机器人竞争、智能控制、协同数据处理、目标跟踪、编队控制与避障等方向。这些任务通常具有连续动作空间、局部观测、稀疏通信和复杂物理约束,因此更依赖Actor-Critic、MAPPO、MADDPG、图注意力网络或分层MARL等方法。
一个重要启示是,水下移动机器人任务不能只把AUV看成单独运动体,而应同时考虑通信网络属性。也就是说,AUV的移动不仅改变任务执行效果,也会改变网络拓扑、链路质量和协作信息流。因此,未来的水下智能系统更需要通信-控制-任务的一体化建模。
(4)面向通信受限环境的高级MARL
图6 弹性软件定义MARL架构示例
论文还总结了面向水下通信受限环境的高级MARL架构。一个代表方向是软件定义MARL(SD-MARL):利用SDN的全局视图和可编程控制能力,为MARL提供集中训练与分层管理支撑;同时在执行阶段保持节点分布式决策,以减少实时通信压力。进一步的弹性SD-MARL架构还尝试解决AUV数量变化导致策略网络输入维度变化的问题,使策略能够更灵活地适应不同规模的集群。
在算法改进方面,论文讨论了注意力机制、优先经验回放、跨域迁移学习、分布式信息压缩、奖励函数重构、模型裁剪与策略蒸馏等方向。这些方法本质上都在解决同一个问题:水下环境中的样本昂贵、通信受限、部署能耗高、真实试验成本大,因此MARL必须比普通仿真场景更加重视样本效率、可扩展性和部署可行性。
05
总结
CONCLUSION
总结
总体来看,本文是一篇面向水下智能通信系统的MARL综述,其价值不在于提出某个具体算法,而在于把水下通信优化问题重新放到“多智能体协同决策”的框架下进行梳理。论文从水下环境约束出发,解释了为什么传统集中式方法和静态启发式策略难以适应复杂海洋场景,并进一步说明MARL如何在局部观测、强耦合、多目标和动态拓扑条件下发挥作用。
论文最值得关注的地方,是它将水下MARL研究划分为静态通信网络、动态移动机器人网络和通信受限高级算法三个层次。这样的分类能够帮助读者快速理解:路由、MAC、资源分配和安全防御主要对应网络运行层;AUV编队、目标跟踪和数据采集对应通信-控制融合层;SD-MARL、注意力机制、迁移学习、奖励设计和可解释性则对应算法支撑层。
从后续研究角度看,本文给出的启示是:水下MARL不能只追求仿真性能提升,更要重视真实通信约束、能耗开销、部署规模变化、安全风险和可解释性。只有将水下物理信道、网络协议、AUV运动控制和强化学习机制结合起来,才能真正推动水下智能通信系统从仿真走向实际应用。
简而言之,本文为“MARL如何服务于水下智能通信系统”提供了一张比较完整的技术地图。对于从事水下网络、AUV集群控制、分布式智能优化和海洋信息系统研究的读者来说,这篇论文不仅适合作为入门综述,也适合作为后续选题和方法设计的参考框架。
END
扫描二维码关注我们
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:网络与安全实验室 《团队科研成果分享-71》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。











评论