CrossEarth-SAR:首个十亿级SAR跨域语义分割基础模型,指标优异

admin 2026-04-04 05:20:21 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: CrossEarth-SAR是首个十亿参数级SAR视觉基础模型,针对SAR图像跨域语义分割问题提出物理引导的稀疏MoE架构。模型通过SAR物理描述子从成像几何、雷达系统和地物散射三个维度稳定路由选择,在构建的22项跨域基准中20项达到SOTA性能,平均mIoU提升9.7%。研究证明物理先验嵌入比纯数据驱动更有效,全球粗标注数据在域泛化场景下价值显著。 综合评分: 85 文章分类: AI安全,计算机视觉,遥感技术,模型架构,地理信息系统


cover_image

CrossEarth-SAR:首个十亿级SAR跨域语义分割基础模型,指标优异

原创

mapxiaotu mapxiaotu

空天感知

2026年4月3日 13:05 新加坡

CrossEarth-SAR:首个十亿级参数 SAR 跨域语义分割基础模型

Ziqi Ye, Ziyang Gong, Ning Liao 等 复旦大学 / 上海交通大学 / 武汉大学 等 ·

2026年3月 arXiv: 2603.12008

https://arxiv.org/abs/2603.12008

文章成果来自复旦大学、上海交大等团队

研究背景

SAR(合成孔径雷达)具备全天候、全天时成像能力,在灾害监测和环境观测中不可替代。但 SAR 语义分割面临严重的跨域泛化问题:不同传感器平台(Sentinel-1、ALOS-2、Capella 等)、频段(C/L/X)、极化方式(HH/VV/Full)以及地理区域的变化,会导致图像特征分布发生剧烈偏移。一个在特定域上训练的模型,迁移到新域后性能大幅下降。

现有地理空间基础模型(SatMAE、HyperSIGMA、SkySense 等)主要面向光学/多光谱数据,未针对 SAR 的后向散射物理和斑点噪声进行设计。SAR 领域也缺乏统一的跨域评测基准。

核心贡献

• 提出 CrossEarth-SAR,首个十亿参数级(1.3B)SAR 视觉基础模型,基于物理引导的稀疏 MoE 架构

• 设计 SAR Physical Descriptor,从成像几何、雷达系统、地物散射三个物理维度为 MoE 路由器提供稳定引导信号

• 构建 CrossEarth-SAR-200K 数据集,整合 20 万张 SAR 图像(含伪标签),覆盖六大洲

• 建立 22 项基准 × 8 类域间隙的标准化评测体系,在其中 20 项取得 SOTA

▲ 22 个跨域基准的 mIoU 雷达图。CrossEarth-SAR(浅蓝)在绝大多数基准上包围其他方法

方法

整体架构

▲ CrossEarth-SAR 框架:(a) 数据构建 (b) 基于 DINOv2 + Sparse MoE 的持续预训练 (c) Earth-Adapter 参数高效微调 (d) 22 项评测基准

模型以 DINOv2 为骨干网络,将其每一层的 FFN 替换为包含 6 个专家的 Sparse MoE 层,专家权重初始化自 DINOv2 的 FFN。输入 SAR 图像复制为 3 通道后送入骨干提取 token 嵌入,同时计算 SAR Physical Descriptor,两者拼接后输入路由器进行专家选择。最终通过 Mask2Former 解码器输出语义分割结果。

模型提供 Small(90M)、Base(300M)、Large(1.3B)三个尺度版本,推理时每个 token 仅激活 1 个专家,计算成本与标准 FFN 相当。

SAR Physical Descriptor

传统 MoE 路由器依赖 token 嵌入选择专家,但 SAR 严重的域偏移导致嵌入波动剧烈,路由不稳定。SAR Physical Descriptor 从三个物理维度为每张图像计算稳定描述子:

| | | — | | |

| 描述子 | 物理维度 | 含义 | 最敏感域间隙 | | — | — | — | — | | 方向熵 HDE | 成像几何 | 图像梯度方向的分布均匀性,反映传感器视角对边缘结构的影响 | 极化 | | 等效视数 ENL | 雷达系统 | 均值/标准差之比的平方,衡量斑点噪声水平 | 复数值 | | 局部粗糙度 RLR | 地物散射 | 分块平均亮度的方差,反映不同地物的散射差异 | 区域 |

三个描述子拼接为 3D 向量 s = [HDE, ENL, RLR],与 token 嵌入共同送入路由器。路由器为每个 token 计算各专家得分,选择 top-1 专家进行处理。训练中加入负载均衡损失以防止专家坍缩。

数据集构建

▲ CrossEarth-SAR-200K 数据集地理分布

CrossEarth-SAR-200K 整合三部分数据:126K 公开光学-SAR 配对数据(由 CrossEarth 生成伪标签)、37K 私有光学-SAR 配对数据和 40K 公开 SAR 数据集(重映射语义标签)。统一为 7 类基本语义类别,图像裁剪至 512×512。

实验结果

评测设置

▲ 22 项域泛化基准配置,跨 6 个主流 SAR 数据集,覆盖 8 种域间隙

基线方法包括 S12-MoCo、S12-DINO、S12-MAE、DOFA、SatMAE、ScaleMAE、RemoteCLIP、MTP、DINOv2、DINOv3、SARATR-X 等 11 种。下游微调时冻结骨干、仅训练解码器。

单域间隙结果

▲ 12 个单域间隙基准结果

CrossEarth-SAR-L 在全部 12 个单域间隙基准平均 mIoU 达 62.7%,超越 DINOv2 Baseline(53.0%)+9.7%。在极化泛化(VV2F)上达到 73.9%,复数值泛化上达到 76.7%。Small 版本(90M 参数)已超越大部分 300M 基线模型。

多域间隙结果

▲ 双域/三域间隙基准结果

在双域间隙场景中,CrossEarth-SAR-L* 在 F2A 上达到 27.0% mIoU(DINOv2 仅 15.5%,+11.5%)。在三域间隙场景下,多数基线几乎失效,CrossEarth-SAR 仍保持有效分割。

可视化对比

▲ 6 个基准上各方法分割结果对比。CrossEarth-SAR 的预测最接近 Ground Truth

消融实验

▲ 训练范式、MoE 设计和专家配置的消融结果

• MoE 设计:物理描述子和负载均衡损失协同使用效果最优(62.4 mIoU),单独使用分别为 61.6 和 62.2

• 专家配置:6 个专家、top-1 激活为最优;专家数量从 3 增至 6 持续提升,top-k > 1 反而下降

• 数据有效性:全量 200K 数据(42.9 mIoU)显著优于仅 40K 真实标注(36.5),伪标签因全球地理覆盖弥补了标注精度不足

物理描述子敏感性

▲ 各描述子对不同域间隙的贡献

逐一启用单个描述子的实验表明,每个描述子与特定域间隙存在对应关系:方向熵对极化最敏感(73.47 mIoU),ENL 对复数值最敏感(75.97),局部粗糙度对区域最敏感(37.49)。三者组合效果最佳。

专家特化

▲ 不同域间隙类型下各专家的激活比例

不同域间隙类型的输入由不同专家主导处理:极化变化主要激活 Expert 1,复数值变化主要激活 Expert 3,微波频段变化主要激活 Expert 5。这种专家特化是自然涌现的,并非显式监督。

▲ 24 层 ViT 中各专家的逐层激活频率,呈现清晰的层级分工

总结

CrossEarth-SAR 是首个十亿参数级 SAR 视觉基础模型,通过物理引导的稀疏 MoE 架构解决 SAR 跨域语义分割问题,在 22 个基准中 20 个取得 SOTA。配套数据集和评测体系为 SAR 域泛化研究提供了统一标准。

关键启示:在 SAR 等领域特异性强的任务中,将物理先验嵌入模型架构(物理描述子引导路由)比纯数据驱动更有效。数据方面,全球覆盖的粗标注在域泛化场景下可能比局部精确标注更有价值。

笔者测试

我自己对crossearth sar进行了测试,在一个水域分割的自有数据集上进行简单的下游微调,iou即达到非常高的70%,这是其他基础模型所不具备的。

也证明了模型能力的强大。

让AI“读懂”12000+景SAR影像:开源SAR平台重大更新,接入大模型你也可以实现以文搜图

也说遥感共性产品,行业需要什么样的遥感产品?

看水利部水利遥感星座战略布局,机遇与挑战并存

Umbra开源雷达影像下载工具开发实践

NASA与微软联合推出“Earth Copilot”,“智能助手“或成为行业产品标配

欢迎交流

笔者长期从事人工智能、遥感、大模型等业务

参考:Ziqi Ye et al., “CrossEarth-SAR: A SAR-Centric and Billion-Scale Geospatial Foundation Model for Domain Generalizable Semantic Segmentation,” arXiv:2603.12008v1, 2026.


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:空天感知 mapxiaotu mapxiaotu《CrossEarth-SAR:首个十亿级SAR跨域语义分割基础模型,指标优异》

评论:0   参与:  0