2026-05-25 04:32:37 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 研究针对水下无线传感器网络路由泛化难题，提出GSD-UWSN架构与AF-MARL算法，通过模糊状态表示和异步训练实现策略跨拓扑迁移，实验验证其在不同规模网络中保持高投递率与低时延，建议后续探索自适应模糊化提升动态适应性。 综合评分： 85 文章分类： IoT安全,网络安全,解决方案

cover_image

团队科研成果分享-72

网络与安全实验室

2026年5月24日 05:00 江苏

在小说阅读器读本章

去阅读

团队科研成果分享

2026.05.18-2026.05.24

标题: Generalizable Data Routing for UWSNs based on Fuzzy State Representation in Asynchronous MARL

期刊: IEEE Transactions on Mobile Computing, 2026

作者: Yuan Liu, Guangjie Han, Chuan Lin, Shengchao Zhu, Fan Yang

分享人: 河海大学——刘渊

研究背景

BACKGROUND

研究背景

随着海洋环境监测、海上资源勘探和水下军事侦察等应用不断发展，水下无线传感器网络（UWSNs）逐渐成为海洋信息采集的重要基础设施。在这类网络中，大量水下节点需要把观测数据稳定、高效地传输到水面无人艇或汇聚节点，因此路由算法直接决定了数据收集效率、网络时延以及节点能耗。然而，水下环境比陆地无线网络更加复杂。海流、潮汐和湍流会造成节点位置漂移，水声信道又具有带宽低、时延高、误码率高等特点，使得网络拓扑呈现强动态性。传统路由算法往往依赖固定规则或固定拓扑假设，难以在网络规模变化、邻居节点数量变化时保持稳定性能。近年来，多智能体强化学习（MARL）被用于解决分布式路由决策问题，软件定义网络（SDN）也被引入水下网络以提升集中管理能力。但已有 MARL 路由方法通常在特定场景中训练策略网络，当节点数量、邻居集合或动作空间发生变化后，原有策略网络的输入输出维度不再匹配，只能重新训练。对能量受限、通信昂贵的 UWSNs 而言，这会带来额外的训练开销与部署成本。

针对这一问题，本文将SDN与MARL结合，提出可泛化软件定义水下无线传感器网络（GSD-UWSN），并进一步构建基于模糊状态表示的异步多智能体强化学习算法AF-MARL。其核心目标是：即使算法只在简单拓扑中训练，也能够迁移到未见过的复杂拓扑和更大规模网络中，而无需重新训练。

关键技术

TECHNOLOGY

关键技术

本文围绕“可泛化路由”这一核心问题展开，关键技术可以概括为三部分：软件定义水下网络架构、可变动作空间下的路由建模，以及基于模糊状态表示的异步 MARL 训练机制。

1）GSD-UWSN 架构：将UWSNs划分为应用层、控制层和网络层。应用层负责制定数据采集策略，控制层由水面无人艇（USV）承担，负责收集网络交互数据、训练和分发策略；网络层中的水下节点基于下发策略进行本地路由决策。

2）G-MDP建模：把路由选择建模为可泛化马尔可夫决策过程（G-MDP）。与传统方法把整个邻居集合拼接为固定维度状态不同，本文把“候选下一跳节点”作为动作观察对象，使每个候选节点都对应一个固定维度的动作观察向量，从而摆脱邻居数量变化对策略网络维度的限制。

3）AF-MARL算法：通过模糊状态表示压缩场景细节，避免策略过度记忆训练拓扑；通过异步集中式训练，使节点在训练时学习更加通用的协作关系。最终，节点可以根据当前邻居数量动态构建可扩展策略网络，实现对可变动作空间的并行决策。

算法介绍

ALGORITHMS

算法介绍

（1）GSD-UWSN 网络架构

图1 GSD-UWSN总体架构

如图1所示，GSD-UWSN 由应用层、控制层和网络层组成。应用层根据数据采集任务制定路由策略；控制层以USV为核心，收集节点交互数据并训练基础策略网络；网络层由水下传感器节点构成，每个节点依据控制层分发的策略进行下一跳选择。与传统SDN依赖预定义规则不同，本文将MARL引入控制层，使控制器能够学习可迁移的路由逻辑。

这种设计的一个重要优势是策略分发更轻量。当网络中加入新节点时，控制层只需向新节点下发预训练的基础策略网络，新节点即可与已有节点建立协作关系，而无需针对新拓扑重新训练完整模型。

（2）G-MDP：面向可变动作空间的路由建模

传统强化学习路由算法通常把节点周围环境和所有邻居信息整体编码为一个固定维度向量。当邻居数量增加或减少时，状态维度和动作维度都会改变，预训练策略网络无法直接使用。本文提出G-MDP，将路由动作理解为“从候选邻居中选择下一跳”，并为每个候选邻居构造固定维度的动作观察。

动作观察主要包含USV位置、候选节点位置、候选节点剩余能量、候选节点缓存数据量，以及候选节点邻居集合的平均位置、平均剩余能量和平均缓存量等信息。这样，每个候选邻居都可以被同一个基础策略网络评估；邻居数量变化只会改变需要评估的候选数量，而不会改变单个候选输入的维度。

（3）并行决策与可扩展策略网络

图2 可扩展并行决策方法

如图2所示，本文使用多层感知机（MLP）作为基础策略网络。实际决策时，节点会根据当前邻居数量复制并拼接多个基础策略网络，构成可扩展策略网络。每个基础网络负责评估一个候选邻居的动作适应度，最终节点选择适应度最高的邻居作为下一跳。

这种结构使模型具备两个特点：一是参数共享，所有候选邻居使用同一套基础策略参数，因此模型存储开销不会随邻居数量线性增长；二是并行处理，不同候选邻居的评估可以同时进行，从而降低决策时延。

（4）AF-MARL：基于模糊状态表示的异步训练

图3 AF-MARL算法框架

AF-MARL的训练流程包括环境交互、模糊状态表示和异步集中式训练三个步骤。首先，节点与水下网络环境交互，收集轨迹数据。随后，算法对场景信息和节点协作信息进行模糊化处理，弱化具体节点身份和固定拓扑细节，使critic网络学习更加抽象的全局趋势。

模糊状态表示是通过平均池化实现的，核心是丢弃节点个体细节、保留全局统计趋势，从而避免智能体过拟合到特定拓扑与节点编号，提升跨场景泛化能力。

最后，算法采用异步集中式训练，不要求所有节点以固定协作模式同步更新，从而提升对未知节点和未知邻居集合的适应能力。

直观来看，AF-MARL并不是让模型记住“在这个拓扑中该把数据发给谁”，而是让模型学习“什么样的邻居更适合作为下一跳”。这正是其能够迁移到不同拓扑和更大规模网络中的关键。

实验结果分析

ANALYSIS

实验结果分析

本文在 Python 仿真平台上进行实验，硬件环境为 Intel Core i5-13600KF、32GB RAM 和 NVIDIA GeForce RTX 4070 SUPER。实验首先在 27 节点标准场景中训练模型，然后将预训练模型直接迁移到随机拓扑、64 节点大规模拓扑和高动态拓扑中进行测试。评价指标包括平均回报、数据包投递率（PDR）、传输时延、能量均衡性和 Jain 公平性指数等。

图4 训练与测试场景示意

图5 不同场景下的训练过程对比

（1）27节点场景中的泛化能力

在 27 节点场景中，AF-MARL 在标准场景和五个随机场景中均保持较高回报。其平均回报达到 3594.38，接近 Train 基线的 99.74%；平均 PDR 为 0.99，平均时延为 6.06。相比之下，MADDPG、MATD3 和 MASAC 的平均回报分别仅为 1422.96、1399.45 和 1599.20，说明传统 MARL 方法对训练拓扑具有明显依赖。

表1 27节点场景回报比较

表2 27节点场景路由指标比较

（2）64节点场景中的规模迁移能力

在更具挑战性 64节点场景中，AF-MARL没有重新训练，而是直接部署27节点场景中训练得到的基础策略网络。实验结果显示，AF-MARL 的平均回报达到15080.98，甚至高于在该场景直接训练的 Train 基线均值13510.55。相比之下，去除关键机制后的 SP-MARL、AP-MARL和 SF-MARL均出现明显性能下降，说明状态模糊化、异步训练和 G-MDP 建模共同支撑了算法的可泛化能力。

表3 64节点场景回报比较

（3）高动态场景与可执行动作适应能力

为了验证动态适应性，论文将六个 27 节点场景按时间顺序切换，构造高动态网络拓扑。AF-MARL 在该场景中的回报为 3231.35，高于MADDPG的2129.34、MATD3的2518.31和MASAC的 2134.55。其原因在于AF-MARL可以根据当前邻居数量动态调整可执行动作；而传统 MARL 的策略网络结构固定，邻居集合变化后可执行动作数量显著下降。

图6 节点邻居数量变化下的可执行动作对比

总结

CONCLUSION

总结

本文面向水下无线传感器网络中“训练场景有效、迁移场景失效”的路由泛化难题，提出了 GSD-UWSN 架构、G-MDP 建模方法和 AF-MARL 算法。其关键思想是将每个候选下一跳节点表示为固定维度的动作观察，再通过基础策略网络进行共享评估，从而避免邻居数量变化导致的输入输出维度失配。

实验结果表明，AF-MARL 能够从简单27节点场景迁移到随机拓扑、64节点大规模网络以及高动态场景中，并在投递率、时延、回报和部署开销方面保持较好表现。这说明，适度的状态模糊化和异步训练机制可以有效降低模型对特定拓扑的依赖，使 MARL 路由策略更适合动态水下网络。

当然，本文也指出AF-MARL的泛化能力主要面向节点数量和节点位置变化。当通信半径或流量强度发生较大变化时，性能提升不如拓扑泛化明显。未来可以进一步研究自适应模糊化、元学习等方法，使模型能够根据网络条件动态调节信息压缩程度，从而在更多类型的水下网络变化中保持稳定表现。

END

扫描二维码关注我们

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：网络与安全实验室《团队科研成果分享-72》