论文研读与思考|MMSearch-R1:激励大型多模态模型进行搜索

admin 2026-05-22 03:06:45 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 论文提出MMSearch-R1强化学习框架,训练大型多模态模型实现按需搜索行为。核心创新包括构建搜索平衡数据集FVQA、设计搜索惩罚奖励机制,使模型在知识不足时主动搜索,知识充足时直接回答。实验表明该方法在保持准确率的同时将搜索率降低30%以上,显著提升效率。研究为多模态模型工具学习提供了新范式。 综合评分: 87 文章分类: AI安全,技术标准,解决方案,安全工具,安全运营


cover_image

论文研读与思考|MMSearch-R1:激励大型多模态模型进行搜索

Liu Liu

玄枢战队-Arcane Hub

2026年5月20日 13:27 陕西

在小说阅读器读本章

去阅读

原文标题:MMSearch-R1: Incentivizing LMMs to Search

中文标题:MMSearch-R1:激励大型多模态模型进行搜索

原文作者:Jinming Wu; Zihao Deng; Wei Li; Yiding Liu; Bo You; Bo Li; Zejun Ma; Ziwei Liu

论文地址:https://arxiv.org/abs/2506.20670

项目地址:https://github.com/EvolvingLMMs-Lab/multimodal-search-r1

一,主要研究问题和方案

1.1 核心研究问题

        大型多模态模型(LMMs)在处理现实世界中复杂、动态的长尾知识时往往产生幻觉。现有的解决方案存在明显缺陷:RAG(检索增强生成)方法遵循固定的检索-生成流程,通常导致过度检索、计算成本高昂,且假设所有必需信息已存在于语料库中,无法适应动态场景;而提示工程智能体虽然能与真实搜索引擎交互,但模型参数未经过优化,模型并未真正学会如何有效地与搜索工具交互或适应开放环境。 为解决这一问题,文章提出了MMSearch-R1,首个端到端强化学习(RL)框架,旨在教会LMM按需搜索——即识别知识边界、决定何时搜索、搜索什么以及如何利用搜索结果进行推理。核心在于让模型像人类一样,在自身知识充足时自信作答,在知识匮乏时主动寻求外部帮助。

1.2 研究方案

        文章的研究方案不仅包含MMSearch-R1架构和算法设计,还特别强调了高质量数据集构建的重要性,因为这是训练具备“按需搜索”行为模型的基础。

1.2.1 迭代式多模态搜索流程

        文章将搜索任务构建为多轮对话的马尔可夫决策过程(MDP)。模型在接收到问题后,首先在 <reason>...</reason> 标签内进行内部推理,然后决定下一步动作。动作空间包括: 直接回答; 调用图像搜索; 调用文本搜索。具体的设计有:

  • 交互格式:若需图像搜索,输出 <search><img></search>;若需文本搜索,生成查询语句并置于 <text_search>...</text_search> 中。最终答案包裹在 <answer>...</answer> 中。

  • 信息反馈:搜索工具返回的结果被放置在 <information>...</information> 中,并作为下一轮的输入。为防止训练偏差,搜索工具返回的内容在损失计算时被遮蔽。

  • 工具集成

  • 图像搜索工具:基于SerpAPI,输入图像,返回Top-5视觉匹配网页(缩略图+标题),帮助识别视觉实体。

  • 文本搜索工具:由SerpAPI(检索URL)+ JinaReader(解析网页)+ Qwen3-32B(摘要模型)组成。该流水线不仅检索,还执行“搜索-解析-摘要”链,确保返回内容与问题相关且简洁,减少Token消耗。

图1:MMSearch-R1流程图

1.2.2 FVQA数据集构建

        这是文章的重要贡献之一。现有数据集(如InfoSeek)多偏向文本知识,或(如MMSearch)规模过小。为了训练具备“按需搜索”能力的模型,数据集必须满足三个条件:包含搜索必需和搜索自由的问题、答案简洁无歧义以便规则验证、知识类别和难度多样化。为此,文章构建了Factual VQA 数据集。

  • VQA收集

  • 视觉知识需求:从MetaCLIP元数据分布(涵盖常见到罕见视觉概念)中随机采样10,000个概念,进行网络搜索获取图像和网页,利用GPT-4o生成事实性VQA对,形成FVQA-auto-vc。

  • 文本知识需求:从InfoSeek训练集中按知识类型分类并平衡采样,获得FVQA-auto-txt。

  • 真实用户查询:人工标注800个样本(FVQA-manual-train)。

  • 搜索平衡:这是塑造“按需搜索”行为的关键。文章首先训练一个Qwen2.5-VL-Instruct-7B模型,对原始问题进行8次Rollout。根据模型是否必须调用搜索才能正确回答,将问题标记为image-search-required、text-search-required、mix-search-required或search-free。

  • 最终数据集:通过分类和平衡采样,构建了包含约3,400个搜索必需和1,600个搜索自由的FVQA-train(共5000样本)。这种平衡确保模型既能学习如何搜索,也能学习何时不需要搜索。

    图2数据集构建流程

1.2.3 基于搜索反馈的强化学习

        文章采用Group Relative Policy Optimization (GRPO) 算法,该算法无需价值函数,直接从组内奖励估计基线,显著降低计算负担。具体设计有:

奖励建模:这是MMSearch-R1的核心创新点,旨在通过奖励设计显式地塑造“按需搜索”行为。奖励由两部分组成:

准确度分数+搜索惩罚:使用精确匹配评估答案正确性。

关键机制:如果模型调用了搜索工具并给出了正确答案,会对准确度分数施加一个惩罚因子(取值0-1)。这看似反直觉,但逻辑清晰——如果模型不搜索就能答对,说明检索是不必要的。惩罚机制迫使模型优先利用内部知识,仅在内部知识不足时才调用搜索,从而避免过度依赖外部工具。

格式分数:严格遵循预定义格式(如正确使用标签)得1,否则0。

最终奖励公式:

二,主要贡献

  1. 提出强化学习框架:提出了MMSearch-R1,首个端到端RL框架,使LMM能够在真实互联网环境中执行多轮按需搜索,而非像RAG那样固定流程或像Prompt Agent那样未经学习优化。
  2. 构建搜索平衡数据集:提出了自动化构建FVQA数据集的方法,并特别强调通过“搜索平衡”过程混合搜索必需与搜索自由样本,这对塑造模型“知之为知之,不知为不知”的行为至关重要。
  3. 验证高效搜索行为:实验证明,MMSearch-R1-7B在准确率超越同尺寸RAG模型的同时,搜索调用次数减少了30%以上,性能甚至接近32B的RAG模型。

与相关工作的对比与区别:

  1. 与RAG对比:RAG依赖于固定的检索-生成流水线,无论问题难易都执行固定步骤的检索,导致过度检索和计算浪费;MMSearch-R1通过RL学习自适应搜索,仅在必要时调用工具。
  2. 与提示工程智能体对比:提示工程方法未对模型参数进行优化,模型并未真正学会搜索交互,仅仅是被动执行提示指令;MMSearch-R1通过RL优化模型策略,使其内化搜索决策能力。
  3. 与基于文本的RL搜索对比:现有的RL搜索工作(如Search-R1)主要关注文本模态;MMSearch-R1首次将此扩展到多模态领域,集成了图像与文本搜索工具,并设计了多模态奖励机制。

三,实验结果与分析

实验设置

  • 基座模型:Qwen2.5-VL-7B-Instruct。
  • 训练集:自建的FVQA-train(约3400搜索必需+1600搜索自由样本)。
  • 基准:FVQA-test, InfoSeek, MMSearch, SimpleVQA, LiveVQA。其中MMSearch、SimpleVQA和LiveVQA为域外(OOD)测试集。
  • 基线:Direct Answer 和 RAG Workflow(固定执行图像+文本搜索,作为强基线);对比了GPT-4o, Gemini 2.5 Pro及Qwen系列。
  • 评估标准:LLM-as-Judge(GPT-4o)准确率 & 搜索率 (SR, Search Ratio)。

主要实验结果

表1:MMSearch-R1在各基准测试中的性能表现。

        MMSearch-R1-7B在5个VQA任务上平均准确率为54.6%,搜索率为67.1%。相比之下,同尺寸的RAG基线准确率为51.6%,搜索率为100%。这表明该模型在减少搜索行为的同时,获得了更高的准确率。甚至在平均准确率上超越了参数量是其4.6倍的Qwen2.5-VL-32B (RAG) 的55.1%。RL模型的搜索率大幅下降(平均降低32.9%)且准确率提升,证明其学会了“按需搜索”。RAG模型则无论问题难易都100%执行搜索,效率低下。

消融实验

图3:(a) 基础模型与经过强化学习训练的模型在RAG工作流程下的性能比较。(b) 基础模型(内圈)与强化学习模型(外圈)在InfoSeek和SimpleVQA上的答案行为细分。

图5:(a) 在五个VQA数据集上,SFT和RL相较于Base模型的性能提升。(b) 不同策略的奖励与搜索比率随训练变化的动态过程。

核心结论

MMRL增强查询与信息提取能力:为了排除搜索触发决策的干扰,实验在固定的RAG设置下(强制执行搜索)比较模型性能。结果显示RL训练后的模型依然优于基础模型(ID任务+6.51%,OOD任务+6.18%),说明RL不仅教会了模型“何时搜”,还提升了“搜什么”和“如何用”的能力,即生成更精准的查询和更好地总结检索结果。

MMRL提升内部知识利用能力:行为分析显示,RL模型在不调用搜索的情况下正确回答的比例显著上升。例如在InfoSeek上,从基础模型的17.6%上升至28.4%;在SimpleVQA上从33.5%上升至53.9%。这表明RL训练不仅没有削弱模型的内部知识,反而通过“逼迫”模型先思考,增强了其利用自身参数知识的能力。

MMRL优于SFT且数据效率更高:对比实验显示,RL仅需5k数据便在所有任务上超越了使用8k数据训练的SFT模型。SFT往往模仿教师模型(GPT-4o)的行为,而RL允许模型通过试错发现更优策略,特别是在MMSearch和LiveVQA等需要外部信息的任务上,RL模型表现出更高的搜索工具调用频率,行为更符合任务需求。

数据平衡与搜索惩罚至关重要:消融实验表明,移除搜索惩罚或数据平衡会导致搜索率飙升至近100%。虽然移除惩罚能让模型在需搜索的问题上答对更多,但代价是对所有问题都搜索,失去了“按需”的意义。只有两者结合,才能在保持奖励的同时维持低搜索率,塑造出高效的搜索行为。

通用VQA能力未受损:在AI2D、ChartQA等通用VQA基准上,MMSearch-R1-7B与基础模型表现相当,说明RL训练在增强搜索行为的同时,未损害模型的通用视觉理解能力。

四,局限性与未来影响

局限性

① 工具交互依赖性:不管是图像搜索还是文本搜索流都依赖检索出来数据的质量,如果检索质量较差可能引入波动。

② 搜索深度有限:最多2次搜索+3轮对话,复杂多跳推理链路尚未充分探索。

③ 奖励函数灵活性:精确匹配对同义表达判罚过严。即相同表达也会被误判。

对未来工作的启示:

①更通用的奖励建模:探索语义级别的奖励信号。语义相同的回答也应该给予一定的奖励

②更丰富的工具箱:性能更好的检索工具,集成代码执行器、数据库查询、计算器等更多工具。

③更深的推理链:支持更多轮次的搜索-推理迭代,处理复杂多跳问题。


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:玄枢战队-Arcane Hub Liu Liu《论文研读与思考|MMSearch-R1:激励大型多模态模型进行搜索》

喜报|HCTF新生赛收官! 网络安全文章

喜报|HCTF新生赛收官!

文章总结: 南华卡布奇诺与衡阳师范学院联合举办的HCTF新生赛圆满结束,南华选手闫俊光获总排名第三,曹宇、谭宇涵等选手表现突出。赛事涵盖Misc、Crypto、
评论:0   参与:  0