文章总结: 该SAR开源平台接入商业卫星数据超12000景,核心更新为大模型语义检索。通过HCoT思维链Prompt引导模型生成影像描述,结合向量库实现以文搜图。测试显示Gemini判读效果最佳。平台还优化了浏览速度并开放注册,未来可扩展至数据标注与变化检测。 综合评分: 80 文章分类: 产品介绍
让AI“读懂”12000+景SAR影像:开源SAR平台重大更新,接入大模型你也可以实现以文搜图
原创
mapxiaotu mapxiaotu
空天感知
2026年2月4日 18:11 新加坡
半个多月前向大家开放使用我开发的“SAR开源数据可视化平台”以来(
找数据不再大海捞针,全球主流开源SAR影像可视化平台,免费使用
),得到了很多朋友们的反馈,也收到了许多宝贵的意见。
经过近期的迭代,平台的易用性和稳定性有了很大的提升。
现对平台的总体情况做下介绍,并列出重点更新的功能。
01
平台运行情况
目前平台共接入了三家商业卫星公司的开放数据,包括Umbra、ICEYE、CAPELLA。
目前平台数据概况如下:
- 总数据量达12,747景。
- 厂商发布的原始数据集预计达150TB。
- 基本达到了全球的覆盖(即东西南北各区域均有数据分布)。
02
支持语义检索 SAR 影像
有用户反馈提到,面对一万多景数据,很难找到哪些是自己需要的,比如关注水体的、关注港口、机场的,大家都有不同用途。
之前是通过“按图索骥”的方式在地图上一个个影像点开看,非常费劲。
我初步制定的方案是通过大模型给每张影像打标签,然后按照标签进行管理和检索。过程也比较直接,即设定一个 Prompt 让大模型去读每张影像,输出符合这张影像的标签。
例如 Prompt 为:
“你是一个SAR影像的判断专家,请按照我提供给你的遥感SAR数据,给出3-5个符合这张影像的标签”。
实际执行过程中效果尚可,但是工程化存在一些问题,没法更好地涵盖影像的丰富信息。比如一张影像包含城市、道路、河流、建筑、桥梁、机场等等,其实都很难通过简单的 Label 将其细化,导致后期检索召回效果较差。
试验结束后我又想到了别的办法,结合复旦团队近期发表的一篇 Paper(FUSAR-KLIP),文中提到了使用HCoT 思维链的方式,即引导大模型进行更多的深度思考,并给出一些先验知识来辅助判断,效果会特别好。
比如可以设定 Prompt 如下:
Prompt Engineering
任务: 请你扮演一位专业的 SAR(合成孔径雷达)图像判读专家。请按照以下 5 个思维步骤(Chain-of-Thought),对上传的这张 SAR 图像进行详细分析和描述。
输入信息: 地理坐标: [例如:北纬 40.0度,东经 116.5度,北京大兴机场附近] 空间分辨率: [例如:1 米/像素]
推理步骤(请逐步输出):
1. 地球认知层: 基于提供的地理坐标,结合你的世界知识,分析该宏观区域的背景。这里通常是什么类型的区域(如机场、港口、工业区)?环境特征是什么?
2. 社会先验信息: 结合地理背景,推断该区域可能具备的功能和设施。例如,如果是机场,应该有跑道、航站楼;如果是工业区,应该有仓库和工厂。
3. SAR 理论知识层: 结合 SAR 成像原理分析图像纹理。请注意: 散射机制: 金属物体(如飞机、船、屋顶)通常呈现强烈的亮斑。 纹理特征: 草地或水面通常纹理均匀较暗;跑道通常是黑色长条。 噪声: 注意区分斑点噪声和真实目标。
4. 实例级识别层: 结合空间分辨率进行尺度推断。不要只看形状,要算大小。 * 例如:如果一个亮斑长约 30-40 米(基于分辨率计算),且位于机场停机坪,它可能是波音 737;如果是 70 米,可能是空客 A380。请识别具体的物体类型。
5. 知识校准与决策: 综合以上四步,检查逻辑是否自洽。生成的描述必须符合 SAR 物理定律(比如不能说看到了红色的屋顶,因为 SAR 没有颜色)。请输出最终的详细图像描述。
模型将会输出详细的说明,以这张影像为例:
经调整 Prompt 后,最后向我输出的结构化信息如下:
JSON Output
{ "summary":
"位于城市化海湾区域的繁忙港口景象,主要特征为分割两岸城区的宽阔水道、一座跨海大桥、多艘大型货船及沿岸密集的港口工业设施。",
"scene_attributes": {
"environment": "沿海城市与繁忙海港",
"density": "高密度" },
"detailed_description": {
"visual_content": "图像展示了一个宽阔的暗色水域(海湾/水道)贯穿画面中心...",
"sar_features": "水面表现为典型的镜面反射低散射区(黑色)..." }, "key_objects": [ {
"name": "大型货船",
"visual_pattern": "水面上的梭形或长条形高亮斑点..." }, { "name": "跨海大桥",
"visual_pattern": "横跨暗色水域的高亮细长线条" } ],
"keywords": [ "海港", "大型货船", "跨海大桥", "集装箱码头", "温哥华(推测)" ] }
可以看到,大模型给出了详细的关于这副 SAR 影像的描述,加之向其提供影像的坐标值,其还能推测出这里是加拿大温哥华,并且对影像的判读更准确。
这里我测试了 Gemini、千问以及最新的 Kimi2.5,目前评估千问和 Kimi 还是有比较严重的幻觉问题。
从背景知识以及图片内容的描述详细程度、真实准确性几个方面来说,Gemini 的效果都是属第一的,能想到google在训练这个模型的时候是应该加入了大量sar影像的。
做完这一步,后续就是一个向量检索的工作。
然后,我将每张影像的 description 信息进行 Embedding,存入向量数据库,检索时从向量数据库查询相似的内容,按照置信度排列给出。
检索置信度示意
目前设定的置信度是 55%,发现在 55% 以下召回的影像普遍都不太匹配。
让我们看看检索效果,当输入“足球场”时,会有大量结果出现,挑选置信度最高的一景看下:
效果很真实。
整个语义检索的流程基本是成功的,但是要做好、搜得准还得慢慢再打磨,这就又涉及到 RAG 的问题了,需要一个长期调优的过程。
03
影像在线浏览优化
平台 1.0 版本是通过直接请求官方原始数据并在地图加载的,由于大家在国内的访问网络总会卡顿,很久也加载不出。
我便将所有影像的预览图进行缓存,在压缩文件大小的时候,最大化地保持图像细节。
目前在线预览的影像速度很快,清晰度也不错。
04
平台用户注册
上线了用户自主注册模块,输入相关信息就可以注册,无需人工手动开通账号了。
还有很多小功能优化不一一赘述了,个人觉得亮点就在于跑通了语义检索的流程,这是比较好的融合了视觉大模型和遥感去做一些落地。
我的这个思路也可以扩展到一些数据标注、训练乃至数据管理等相关的工作上。
比如:
1、如何做一个本地私有化的视觉大模型去做自有数据的打标签,怎么做针对 SAR 的微调?
2、如何利用 Description 信息对单位存档数据进行更好的管理和使用?
3、如何使用大模型对 SAR 进行辅助的标准、乃至利用大模型去做变化检测?
等等,都是可以尝试的方向。
本文虽然是写了这个工具的功能更新,但实际上干货是我近期怎么落地用大模型的思考。
以上成果离不开很多朋友的支持,也有很多用户专家向我无私提供个人业务经验,非常感谢!
希望更多的朋友使用这个平台工具,并提出意见让我更好的改进,服务于研究和生产,更是把好的技术、切实落地使用,共同进步~
往期推荐:
企业内网、国产化研发环境,如何搭建一套AI代码开发平台,为产研提质增效!
DeepSeek刷屏全网之下,别被流量带偏,理性实践才是硬道理
也说遥感共性产品,行业需要什么样的遥感产品?
看水利部水利遥感星座战略布局,机遇与挑战并存
Umbra开源雷达影像下载工具开发实践
NASA与微软联合推出“Earth Copilot”,“智能助手“或成为行业产品标配
欢迎交流
笔者长期从事人工智能、遥感、大模型等业务
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:空天感知 mapxiaotu mapxiaotu《让AI“读懂”12000+景SAR影像:开源SAR平台重大更新,接入大模型你也可以实现以文搜图》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。








评论