哈工大提出物理驱动的SAR大模型SUMMIT,多项下游任务SOTA

admin 2025-12-22 04:32:45 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 哈工大团队提出首个SAR领域融合多辅助任务的大模型SUMMIT,通过引入辅助任务协调模块将物理驱动的自监督任务集成到预训练中,解决了SAR成像机制带来的独特难题。该模型在目标检测、分类等下游任务上表现优异,在SARDet-100K数据集上mAP提升至少5%,证明了在复杂物理背景的AI研究中,领域知识融入模型设计的重要性。研究已开源代码,为SAR领域提供了有价值的参考。 综合评分: 100 文章分类: AI安全,其他


cover_image

哈工大提出物理驱动的SAR大模型SUMMIT,多项下游任务SOTA

原创

mapxiaotu

空天感知

2025年12月15日 08:45 新加坡

导读: 哈工大团队带来的SAR领域首个融合多辅助任务的大模型 SUMMIT 。它如何解决SAR成像机制带来的独特难题?让我们一探究竟。

最近读到一篇发在关于SAR的大模型的paper,来自哈工大团队,名为《SUMMIT: A SAR foundation model with multiple auxiliary tasks enhanced intrinsic characteristics》,发布了一个名为“SUMMIT”的模型。

整个算法研发过程很有参考价值,并且作者给出的实测效果也都很不错。分享阅读笔记如下:

01 现有困境:光学经验的水土不服

现有的遥感大模型大多基于光学图像训练,往往忽略了合成孔径雷达(SAR)独特的成像机制。业界似乎也没有特别好的专门针对SAR的大模型,研究方向可能主要还是在于如何将SAR的物理特性(如斑点噪声、散射机制)注入深度学习模型。

这篇研究提出了首个融合多辅助任务的SAR基础模型 SUMMIT,通过自监督学习框架,巧妙地将去噪与空间散射特征增强结合,在分类、检测和分割等下游任务中取得了SOTA性能。

在光学领域,像 GPT、DINOv2 这种模型通过海量数据预训练,泛化能力强得离谱。但在 SAR 领域,没有起到特别好作用。主要是存在以下问题:

1. 成像机制差异 SAR基于主动式微波成像,其图像由回波矢量叠加形成。这导致了光学图像中不存在的斑点噪声和几何畸变。

2. 特征表征困难 通用视觉模型倾向于学习颜色和纹理特征,而SAR图像是单通道的幅度信息,依赖于强散射点和边缘结构来表征目标。

3. 数据与知识缺口 缺乏大规模、高质量的SAR预训练数据集,且模型难以自发理解SAR的电磁散射物理特性。

通俗来说就是,因为成像原理的迥然不同,以及稀缺的数据集,导致现有的视觉模型在面对SAR时,很难有好的效果。

02 核心思路:物理驱动的自监督学习

所以就涉及到模型的微调,这篇研究采用的技术路线还是以MAE为主,但是与传统的MAE有改进。

💡  直接套用类似 MAE(掩码自编码器)这种让模型“猜被遮挡部分”的逻辑,模型很可能会把注意力浪费在拟合那些随机的噪声斑点上,而不是去理解真正的地物结构。

本研究主要基于ViT的掩码自编码器(MAE)架构。其核心创新在于引入了 辅助任务协调模块(ATCM),将三个物理驱动的自监督辅助任务(SSATs)无缝集成到预训练中:

  • ❶ 自监督去噪

    SAR的斑点噪声近似于乘性噪声。ATCM在输入端对原始图像进行对数变换并注入模拟高斯噪声,强制Encoder学习从含噪数据中恢复纯净信号,让模型学会“忽略”斑点噪声。

  • ❷ 边缘特征增强

    利用Canny算子提取原始图像的边缘图作为监督信号。该任务迫使模型保留高频的结构和轮廓信息,这对SAR目标的几何形状识别至关重要。

  • ❸ 散射点特征提取

    利用Harris角点检测提取强散射点。SAR图像中,角点和边缘通常对应强后向散射中心。

同时为了支撑训练,作者构建了一个涵盖56万张样本的数据集 MuSID:涵盖C波段和X波段,源自高分三号、Sentinel-1、TerraSAR-X等多个传感器,分辨率跨度从0.3m到15m。并且经过严格的数据清洗、裁剪(统一为448×448)和去重处理。

03 实验结果:显著提升

作者在分类、检测、分割三个下游任务上,基于 MSTAR, SSDD, SAR-Aircraft-1.0 等7个主流数据集进行了广泛验证。

1. 目标检测

在 SARDet-100K(目前最大的SAR检测数据集)上,SUMMIT展现了压倒性优势。相比于直接在SAR数据上微调的 ViTDet,SUMMIT的 mAP 提升了至少为 5%

在港口和停机坪等密集场景下,SUMMIT能有效分离重叠目标,而对比模型容易出现漏检或误检。

2. 目标分类

在 MSTAR 数据集上的小样本性能突出:

  • 仅使用 30% 的训练数据,准确率达到 98.39%
  • 全量数据下准确率达 99.89%,优于 ResNet, Swin-Transformer 等主流模型。

3. 真正的理解:注意力热力图

对比热力图可以发现模型学习机理的区别,上图红框为SUMMIT模型的注意力结果:

  • 普通 ViT:

    注意力由于受斑点噪声干扰,分布较为散乱,常聚焦于背景噪声。

  • SUMMIT:

    注意力高度集中在目标的强散射中心(如舰船甲板、飞机机身)。

这证明,通过那些辅助任务的“调教”,模型真的懂了 SAR 的成像机理,它知道哪里是信号,哪里是噪声。

💡 小结

在垂类领域的 AI 研究中,Domain Knowledge(领域知识)依然是王道。

单纯的数据堆叠也许能解决通用的视觉问题,但像 SAR 这种有着复杂物理背景的数据,必须要把物理特性(如散射机制、噪声分布)融入到模型的设计哲学里去。

这篇论文中巧妙的模型构建的思路很巧妙,计划借鉴复现下。

论文相关代码已经开源:

https://github.com/Yunsans/SUMMIT-SAR

<预告>除了这篇很典型的MAE的模型构建之外,还看到了基于DINO做的小样本训练的一篇研究,同样效果也很不错。近期也会再发下。

往期推荐:

企业内网、国产化研发环境,如何搭建一套AI代码开发平台,为产研提质增效!

DeepSeek刷屏全网之下,别被流量带偏,理性实践才是硬道理

也说遥感共性产品,行业需要什么样的遥感产品?

看水利部水利遥感星座战略布局,机遇与挑战并存

Umbra开源雷达影像下载工具开发实践

NASA与微软联合推出“Earth Copilot”,“智能助手“或成为行业产品标配

欢迎交流

笔者长期从事人工智能、遥感、大模型等业务


查看原文:《哈工大提出物理驱动的SAR大模型SUMMIT,多项下游任务SOTA》

评论:0   参与:  2