2026-01-15 14:33:38 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文复现并分析了基于深度强化学习求解虚拟网络映射的IoT论文，介绍了四层智能体架构。作者指出原文存在能耗描述缺失、数学公式错误、算法逻辑矛盾及静态映射缺陷等问题，虽整体符合AI趋势但技术硬伤较多。 综合评分： 92 文章分类： AI安全,IoT安全,网络安全

cover_image

深度强化学习求解虚拟网络映射（Energy efcient resource allocation based on virtual network embedding for IoT data generation）

原创

豆豆豆豆

豆豆咨询

2026年1月15日 12:17 浙江

最近在复现一篇深度强化学习求解虚拟网络映射的文章，出现了很多的问题，现在对该论文进行分析、复现及主要的问题进行阐述。

文章如下：Tan L, Aldweesh A, Chen N, Wang J, Zhang J, Zhang Y, Kostromitin K I, and Zhang P. Energy efcient resource allocation based on virtual network embedding for IoT data generation. Automatedd Software Engineering, 2024, 31:66.

该文章的创新点在于：

1）利用虚拟网络映射技术，为物联网数据生成提供节能型资源分配决策。物联网建模为多域物理网络，并以存储、计算和带宽为研究对象构建资源约束模型。

2）设计了一个四层结构的智能体，用于筛选满足数据生成需求的候选物联网节点与链路。该智能体基于奖励机制与梯度反向传播算法进行优化，旨在提升资源分配的长期收益、长期资源利用率及分配成功率。

（有一些疑问：为什么题目是高效节能的虚拟网络映射，但是创新点却一个字都没有提到？而且全文并没有提到能耗的？）

作为一个深度强化学习的虚拟网络映射论文，还是要读读该篇文章。以下是该篇文章的设计与实验。

一、模型设计

1.1 状态

环境的状态描述了智能体运行的当前环境条件，包括不同的变量、特征或者属性。智能体通过观察环境的状态了解环境信息，从而采取行动。具体内容如下：

1）物联网节点的剩余存储资源：资源越大，则越有可能被使用；

2）物联网节点的剩余计算资源：资源越大，则越有可能被使用；

3）物联网节点相连的链路剩余带宽资源：资源越大越有可能被使用；

4）物联网节点的距离$Dis^I(n_i^I)$：$Dis^I(n_i^I)$越小，则更少的链路被使用，因此越有可能被使用；

计算公式如下所示：

其中，

该公式应该是$Dis^I{n_i^I}=\sum_{\forall{(i,j)\in{L^I}}}(||D^I{n_i^I}-D^I(n_j^I)||)^2/(1+\sum_{\forall{(i,j)\in{L^I}}}h(l_{i,j}^I))$，即如下：

状态矩阵如下公式(23)所示：

1.2 智能体

整合深度强化模型的智能体物联网架构如图3所示，其中智能体模型包括四层：(1)提取层Extraction layer、(2)卷积层Convolution layer、(3)概率层Probability layer、(4)过滤层Filtering layer。

提取层：根据环境信息提取状态矩阵，并将其作为智能体的输入，如公式（23）所示。
卷积层：利用卷积因子对状态进行操作，获取可用资源向量。
概率层：基于可用向量，通过Softmax函数计算各物联网节点为数据生成提供资源的被选概率。
过滤层：根据第3.3节中的约束条件，筛选出不符合相关要求的物联网节点与链路，最终确定候选节点与候选链路。

（疑问：其中提取层和过滤层两者并没有可更新的参数，可不用设定为某个层。）

智能体依据当前状态与数据生成需求预测资源分配行为，并将其转化为具体指令，通过软件定义网络控制器或虚拟基础设施管理器执行资源分配决策。与此同时，相应的物联网资源将被分配给用户，用户使用完毕后将释放资源。此外，在执行决策过程中，系统将收集环境奖励反馈，以实时学习并优化智能体策略。

需要说明的是，为鼓励探索行为，通过概率层的Softmax函数为策略引入随机性，将策略输出转换为概率分布。同时，通过温度参数控制探索与利用的平衡：较高的参数值可促进更广泛的探索，增加随机性；较低的参数值则倾向于利用已知的最大概率策略，即选择更可能带来高回报的动作，从而鼓励利用行为。

在前馈过程中，智能体接收当前状态作为输入，并通过神经网络计算各动作的概率分布，该分布将用于选择下一动作；基于所选动作与环境的交互，系统将获取新的状态与奖励值。需要指出的是，由于探索过程中存在随机性，系统并不总是选择概率值最高的策略。在反向传播过程中，算法依据获得的奖励与状态转移信息计算梯度，并更新参数。参数更新过程通过梯度反向传播实现，从而调整智能体的动作策略以最大化期望奖励。

1.3 动作

这是智能体对环境的响应。动作为离散动作，即节点资源分配的决策——选择哪些物理节点分配给请求。其具体表示如下：

物理链路的选择是在选定物理节点后，通过广度优先搜索候选物理链路实现的。

1.4 奖励

奖励是指导智能体学习方向的机制。通过与环境的持续交互，智能体能够学习在不同状态下应采取何种动作以最大化预期奖励。在为物联网数据生成提供节能的资源分配决策，因此我们将资源利用率定义为奖励函数，如公式（19）所示。

结合梯度反向传播方法与奖励机制，可引导智能体的优化过程。其损失函数按以下形式进行迭代：

其中，(\mathcal{L}) 代表损失函数（需说明的是，采用交叉熵损失函数\textsuperscript{*}），(\nabla\mathcal{L}) 表示梯度，(\mu) 为学习率。若学习率取值过小，智能体的迭代步长将偏小，导致收敛速度过慢；若取值过大，迭代步长则会偏大，容易无法收敛。因此，本研究将 (\mu) 设定为 (0.01)。

疑问：

在标准的深度学习或强化学习中，这个写法在数学上是错误或不完整的。它更像是对梯度更新规则的一种描述，而非定义损失函数本身。

此外需要特别说明的是，物联网场景中的网络环境与状态处于持续变化中。为此，在每个训练阶段重新提取瞬时的网络环境与状态，以更精确地模拟和预测网络行为，从而更好地优化资源分配策略。算法流程如算法1所示。

（有疑问：在动态变化环境中，$G^{V_i}$在batch data中，可能是当前时间窗会没有到来的用户请求，这样就会导致整个系统运行出问题。因此，我们可以设定batch data为一个用户请求）。

（有疑问：前面有说是虚拟请求的所有节点都被映射之后再链路映射，但是算法1，我们再第5行看到有一个节点被映射，然后选择一个链路请求进行映射，同时计算回报、损失和更新参数，两者产生矛盾。这是一个非常严重的问题，算法的描述一定是出现问题了）。

为了解答上述两个疑问，猜测只有两个节点一条链路，静态映射过程才有可能实现上面的算法。

二、仿真实验

2.1 仿真环境

在这个参数表里面并没有看到生存时间，因此可以断定是静态映射。

2.2 实验训练结果

2.3 实验测试结果

我们可以看到，接收率和系统收益都趋于下降，而且下降幅度非常大，因此该篇文章应该是静态映射。

总结

该篇文章阐述了一个深度强化学习的映射方法，虽然有一些缺陷，但是整体还是比较完整，而且是对数据生成请求进行资源分配，整体符合当前AI的发展趋势。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：豆豆咨询豆豆豆豆《深度强化学习求解虚拟网络映射（Energy efcient resource allocation based on virtual network embedding for IoT data generation）》