2025-12-22 04:32:45 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 哈工大团队提出首个SAR领域融合多辅助任务的大模型SUMMIT，通过引入辅助任务协调模块将物理驱动的自监督任务集成到预训练中，解决了SAR成像机制带来的独特难题。该模型在目标检测、分类等下游任务上表现优异，在SARDet-100K数据集上mAP提升至少5%，证明了在复杂物理背景的AI研究中，领域知识融入模型设计的重要性。研究已开源代码，为SAR领域提供了有价值的参考。 综合评分： 100 文章分类： AI安全,其他

cover_image

哈工大提出物理驱动的SAR大模型SUMMIT，多项下游任务SOTA

原创

mapxiaotu

空天感知

2025年12月15日 08:45 新加坡

导读： 哈工大团队带来的SAR领域首个融合多辅助任务的大模型 SUMMIT 。它如何解决SAR成像机制带来的独特难题？让我们一探究竟。

最近读到一篇发在关于SAR的大模型的paper，来自哈工大团队，名为《SUMMIT: A SAR foundation model with multiple auxiliary tasks enhanced intrinsic characteristics》，发布了一个名为“SUMMIT”的模型。

整个算法研发过程很有参考价值，并且作者给出的实测效果也都很不错。分享阅读笔记如下：

01 现有困境：光学经验的水土不服

现有的遥感大模型大多基于光学图像训练，往往忽略了合成孔径雷达（SAR）独特的成像机制。业界似乎也没有特别好的专门针对SAR的大模型，研究方向可能主要还是在于如何将SAR的物理特性（如斑点噪声、散射机制）注入深度学习模型。

这篇研究提出了首个融合多辅助任务的SAR基础模型 SUMMIT，通过自监督学习框架，巧妙地将去噪与空间散射特征增强结合，在分类、检测和分割等下游任务中取得了SOTA性能。

在光学领域，像 GPT、DINOv2 这种模型通过海量数据预训练，泛化能力强得离谱。但在 SAR 领域，没有起到特别好作用。主要是存在以下问题：

1. 成像机制差异 SAR基于主动式微波成像，其图像由回波矢量叠加形成。这导致了光学图像中不存在的斑点噪声和几何畸变。

2. 特征表征困难 通用视觉模型倾向于学习颜色和纹理特征，而SAR图像是单通道的幅度信息，依赖于强散射点和边缘结构来表征目标。

3. 数据与知识缺口 缺乏大规模、高质量的SAR预训练数据集，且模型难以自发理解SAR的电磁散射物理特性。

通俗来说就是，因为成像原理的迥然不同，以及稀缺的数据集，导致现有的视觉模型在面对SAR时，很难有好的效果。

02 核心思路：物理驱动的自监督学习

所以就涉及到模型的微调，这篇研究采用的技术路线还是以MAE为主，但是与传统的MAE有改进。

💡 直接套用类似 MAE（掩码自编码器）这种让模型“猜被遮挡部分”的逻辑，模型很可能会把注意力浪费在拟合那些随机的噪声斑点上，而不是去理解真正的地物结构。

本研究主要基于ViT的掩码自编码器（MAE）架构。其核心创新在于引入了 辅助任务协调模块（ATCM），将三个物理驱动的自监督辅助任务（SSATs）无缝集成到预训练中：

❶ 自监督去噪

SAR的斑点噪声近似于乘性噪声。ATCM在输入端对原始图像进行对数变换并注入模拟高斯噪声，强制Encoder学习从含噪数据中恢复纯净信号，让模型学会“忽略”斑点噪声。
❷ 边缘特征增强

利用Canny算子提取原始图像的边缘图作为监督信号。该任务迫使模型保留高频的结构和轮廓信息，这对SAR目标的几何形状识别至关重要。
❸ 散射点特征提取

利用Harris角点检测提取强散射点。SAR图像中，角点和边缘通常对应强后向散射中心。

同时为了支撑训练，作者构建了一个涵盖56万张样本的数据集 MuSID：涵盖C波段和X波段，源自高分三号、Sentinel-1、TerraSAR-X等多个传感器，分辨率跨度从0.3m到15m。并且经过严格的数据清洗、裁剪（统一为448×448）和去重处理。