CCS2025|深度解析MM4flow:首个TB级预训练多模态流量分析模型

admin 2026-01-22 00:14:17 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 国防科大等团队提出首个TB级预训练多模态流量分析模型MM4flow,融合载荷字节与报文长度序列,解决加密流量识别难题。该模型基于77.6TB数据训练,在隧道加密识别中准确率提升84%,显著降低对标注数据的依赖。该研究验证了大规模多模态预训练的潜力,为智能化安全防护提供关键技术支撑。 综合评分: 88 文章分类: AI安全,网络安全,解决方案


cover_image

CCS 2025 | 深度解析 MM4flow:首个 TB 级预训练多模态流量分析模型

AIForSecurity AIForSecurity

AI安全这点事

2026年1月21日 13:26 安徽

在网络安全和管理领域,随着加密技术的普及,传统的流量分析手段(如 DPI)正面临严峻挑战。近日,来自国防科大、清华等高校的研究团队提出了 MM4flow,通过 TB 级海量数据的多模态预训练,彻底刷新了网络流量分析的基准性能。

1. 论文概览

  • 论文标题:MM4flow: A Pre-trained Multi-modal Model for Versatile Network Traffic Analysis
  • 作者:Luming Yang, Lin Liu, Junjie Huang, Zhuotao Liu, Shiyu Liang, Shaojing Fu 等
  • 单位:国防科技大学(NUDT)、清华大学、上海交通大学

2. 研究背景与挑战

加密流量的普及使得报文内容变得不可见。现有的机器学习和深度学习方法虽然取得了一定进展,但仍存在两大痛点:

  1. 多任务适应性差:现有的预训练模型大多仅关注“原始字节流”,忽略了“传输模式”(如包长度序列),导致其在隧道加密、混淆流量识别等任务中表现糟糕。
  2. 通用知识匮乏:目前的模型多在 GB 级的小规模数据集上训练,容易产生过拟合,且无法涵盖真实网络环境中复杂多变的流量模式。

3. 核心创新点

MM4flow 的核心创新可以概括为:

  • 多模态融合:首次同时建模流量的载荷字节流(内容维度)报文长度序列(行为维度)
  • TB 级数据预训练:基于超过 77.6 TB 的真实网关流量进行自监督预训练,数据规模是现有模型(通常为 GB 级)的数千倍。
  • 两阶段训练策略:通过“单模态预训练 + 多模态微调”的架构,有效避免了多模态训练中的模态偏差(Modality Bias)。

#

4. 详细方法

MM4flow 采用“预训练 + 微调”范式。模型将网络流视为异构数据,通过两个子模型(BERT-bytes 和 BERT-ps)分别提取特征。

4.1 数据收集与分词

为了处理 TB 级数据,研究团队开发了基于 Zeek 的高效实时采集方案。

  • 载荷字节流:提取传输层载荷的前 512 字节(上行前 256 字节,下行前 256 字节)。
  • 报文长度序列:记录报文长度及其方向(上行为正,下行为负)。

4.2 嵌入层(Embedding)与公式

模型对两种模态的输入进行了精细化的向量化表达。

(1)载荷字节流嵌入为了捕捉字节的语义信息、位置信息及上下行属性,采用如下公式:

  • :Token 嵌入,涵盖 0x00-0xFF 字节。
  • :位置编码,区分不同位置的字节含义。
  • :类型编码,标识该字节属于上行流(Type 0)还是下行流(Type 1)。

(2)报文长度序列嵌入针对传输行为特征,公式定义为:

  • :长度 Token 嵌入,涵盖 1-1500 的长度值及其方向。
  • :位置编码,反映报文在流中的顺序。

4.3 单模态预训练

模型在海量无标签数据上使用 掩码语言模型(MLM) 进行自监督学习。通过随机遮盖 15% 的 Token,迫使模型利用上下文预测原始值。预训练损失函数(Loss Function):

  • :模型参数。
  • :被遮盖后的输入序列。
  • :第  个位置被遮盖的 Token。

#

4.4 多模态融合与微调

这是 MM4flow 的核心模块。研究团队引入了交叉注意力机制来融合不同模态。(1)交叉注意力计算

其中,查询(Query)、键(Key)和值(Value)定义如下:

  • ,,。
  • :向量维度。

(2)多模态向量生成为了让单模态 Token 感知跨模态信息,将两个模态的输出拼接作为 Query:

  • :表示两个模态向量的连接。

(3)分类决策最终将融合后的表征向量([CLS] 对应的输出)送入分类头:

  • :属于各类别的概率向量。
  • :全连接层的权重与偏置。

(4)分类损失函数使用交叉熵损失进行有监督微调:

  • :真实标签。

4.5 两阶段微调算法

为防止在小样本微调时破坏预训练好的参数,MM4flow 采用了两阶段策略:

  • Stage-1(预热阶段):冻结 BERT-bytes 和 BERT-ps 的预训练参数,仅训练交叉注意力模块和分类头。
  • Stage-2(全参数微调):解冻所有参数,在特定任务数据集上进行全局微调。

5. 实验评估

研究人员在 6 个公开数据集上验证了 MM4flow 的性能,涵盖恶意代码检测、移动端流量分类等多个领域。

  • 准确率提升:在最具挑战性的“隧道加密网站识别”任务中,MM4flow 的准确率比现有预训练模型提升了 84%
  • 样本依赖降低:实验显示,在某些任务下,MM4flow 仅需现有方法 10% 的标注数据,即可达到相同的识别效果。
  • 可视化分析:通过 t-SNE 降维可以看到,预训练后的 MM4flow 在未接触标签前,就已经在向量空间中表现出明显的类别聚集性。

6. 结论

MM4flow 证明了大规模多模态预训练在流量分析领域的巨大潜力。它不仅通过引入传输行为模式解决了加密混淆带来的“信息盲区”,还通过 TB 级数据赋予了模型极强的泛化能力。这项研究为未来通用的智能化网络安全防护体系提供了重要的技术支撑。

参考文献:MM4flow: APre-trained Multi-modal Model for Versatile Network Traffic Analysis


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:AI安全这点事 AIForSecurity AIForSecurity《CCS 2025 | 深度解析 MM4flow:首个 TB 级预训练多模态流量分析模型》

评论:0   参与:  0