2026-05-22 03:06:45 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 论文提出MMSearch-R1强化学习框架，训练大型多模态模型实现按需搜索行为。核心创新包括构建搜索平衡数据集FVQA、设计搜索惩罚奖励机制，使模型在知识不足时主动搜索，知识充足时直接回答。实验表明该方法在保持准确率的同时将搜索率降低30%以上，显著提升效率。研究为多模态模型工具学习提供了新范式。 综合评分： 87 文章分类： AI安全,技术标准,解决方案,安全工具,安全运营

cover_image

论文研读与思考|MMSearch-R1:激励大型多模态模型进行搜索

Liu Liu

玄枢战队-Arcane Hub

2026年5月20日 13:27 陕西

在小说阅读器读本章

去阅读

原文标题：MMSearch-R1: Incentivizing LMMs to Search

中文标题：MMSearch-R1：激励大型多模态模型进行搜索

原文作者：Jinming Wu; Zihao Deng; Wei Li; Yiding Liu; Bo You; Bo Li; Zejun Ma; Ziwei Liu

论文地址：https://arxiv.org/abs/2506.20670

项目地址：https://github.com/EvolvingLMMs-Lab/multimodal-search-r1

一，主要研究问题和方案

1.1 核心研究问题

大型多模态模型（LMMs）在处理现实世界中复杂、动态的长尾知识时往往产生幻觉。现有的解决方案存在明显缺陷：RAG（检索增强生成）方法遵循固定的检索-生成流程，通常导致过度检索、计算成本高昂，且假设所有必需信息已存在于语料库中，无法适应动态场景；而提示工程智能体虽然能与真实搜索引擎交互，但模型参数未经过优化，模型并未真正学会如何有效地与搜索工具交互或适应开放环境。为解决这一问题，文章提出了MMSearch-R1，首个端到端强化学习（RL）框架，旨在教会LMM按需搜索——即识别知识边界、决定何时搜索、搜索什么以及如何利用搜索结果进行推理。核心在于让模型像人类一样，在自身知识充足时自信作答，在知识匮乏时主动寻求外部帮助。

1.2 研究方案

文章的研究方案不仅包含MMSearch-R1架构和算法设计，还特别强调了高质量数据集构建的重要性，因为这是训练具备“按需搜索”行为模型的基础。

1.2.1 迭代式多模态搜索流程

文章将搜索任务构建为多轮对话的马尔可夫决策过程（MDP）。模型在接收到问题后，首先在 <reason>...</reason> 标签内进行内部推理，然后决定下一步动作。动作空间包括：直接回答；调用图像搜索；调用文本搜索。具体的设计有：

交互格式：若需图像搜索，输出 <search><img></search>；若需文本搜索，生成查询语句并置于 <text_search>...</text_search> 中。最终答案包裹在 <answer>...</answer> 中。
信息反馈：搜索工具返回的结果被放置在 <information>...</information> 中，并作为下一轮的输入。为防止训练偏差，搜索工具返回的内容在损失计算时被遮蔽。
工具集成：
图像搜索工具：基于SerpAPI，输入图像，返回Top-5视觉匹配网页（缩略图+标题），帮助识别视觉实体。
文本搜索工具：由SerpAPI（检索URL）+ JinaReader（解析网页）+ Qwen3-32B（摘要模型）组成。该流水线不仅检索，还执行“搜索-解析-摘要”链，确保返回内容与问题相关且简洁，减少Token消耗。

图1：MMSearch-R1流程图

1.2.2 FVQA数据集构建

这是文章的重要贡献之一。现有数据集（如InfoSeek）多偏向文本知识，或（如MMSearch）规模过小。为了训练具备“按需搜索”能力的模型，数据集必须满足三个条件：包含搜索必需和搜索自由的问题、答案简洁无歧义以便规则验证、知识类别和难度多样化。为此，文章构建了Factual VQA 数据集。

VQA收集：
视觉知识需求：从MetaCLIP元数据分布（涵盖常见到罕见视觉概念）中随机采样10,000个概念，进行网络搜索获取图像和网页，利用GPT-4o生成事实性VQA对，形成FVQA-auto-vc。
文本知识需求：从InfoSeek训练集中按知识类型分类并平衡采样，获得FVQA-auto-txt。
真实用户查询：人工标注800个样本（FVQA-manual-train）。
搜索平衡：这是塑造“按需搜索”行为的关键。文章首先训练一个Qwen2.5-VL-Instruct-7B模型，对原始问题进行8次Rollout。根据模型是否必须调用搜索才能正确回答，将问题标记为image-search-required、text-search-required、mix-search-required或search-free。
最终数据集：通过分类和平衡采样，构建了包含约3,400个搜索必需和1,600个搜索自由的FVQA-train（共5000样本）。这种平衡确保模型既能学习如何搜索，也能学习何时不需要搜索。

图2数据集构建流程

1.2.3 基于搜索反馈的强化学习

文章采用Group Relative Policy Optimization (GRPO) 算法，该算法无需价值函数，直接从组内奖励估计基线，显著降低计算负担。具体设计有：

奖励建模：这是MMSearch-R1的核心创新点，旨在通过奖励设计显式地塑造“按需搜索”行为。奖励由两部分组成：

准确度分数+搜索惩罚：使用精确匹配评估答案正确性。

关键机制：如果模型调用了搜索工具并给出了正确答案，会对准确度分数施加一个惩罚因子（取值0-1）。这看似反直觉，但逻辑清晰——如果模型不搜索就能答对，说明检索是不必要的。惩罚机制迫使模型优先利用内部知识，仅在内部知识不足时才调用搜索，从而避免过度依赖外部工具。

格式分数：严格遵循预定义格式（如正确使用标签）得1，否则0。

最终奖励公式：

二，主要贡献

提出强化学习框架：提出了MMSearch-R1，首个端到端RL框架，使LMM能够在真实互联网环境中执行多轮按需搜索，而非像RAG那样固定流程或像Prompt Agent那样未经学习优化。
构建搜索平衡数据集：提出了自动化构建FVQA数据集的方法，并特别强调通过“搜索平衡”过程混合搜索必需与搜索自由样本，这对塑造模型“知之为知之，不知为不知”的行为至关重要。
验证高效搜索行为：实验证明，MMSearch-R1-7B在准确率超越同尺寸RAG模型的同时，搜索调用次数减少了30%以上，性能甚至接近32B的RAG模型。

与相关工作的对比与区别：

与RAG对比：RAG依赖于固定的检索-生成流水线，无论问题难易都执行固定步骤的检索，导致过度检索和计算浪费；MMSearch-R1通过RL学习自适应搜索，仅在必要时调用工具。
与提示工程智能体对比：提示工程方法未对模型参数进行优化，模型并未真正学会搜索交互，仅仅是被动执行提示指令；MMSearch-R1通过RL优化模型策略，使其内化搜索决策能力。
与基于文本的RL搜索对比：现有的RL搜索工作（如Search-R1）主要关注文本模态；MMSearch-R1首次将此扩展到多模态领域，集成了图像与文本搜索工具，并设计了多模态奖励机制。

三，实验结果与分析

实验设置

基座模型：Qwen2.5-VL-7B-Instruct。
训练集：自建的FVQA-train（约3400搜索必需+1600搜索自由样本）。
基准：FVQA-test, InfoSeek, MMSearch, SimpleVQA, LiveVQA。其中MMSearch、SimpleVQA和LiveVQA为域外(OOD)测试集。
基线：Direct Answer 和 RAG Workflow（固定执行图像+文本搜索，作为强基线）；对比了GPT-4o, Gemini 2.5 Pro及Qwen系列。
评估标准：LLM-as-Judge（GPT-4o）准确率 & 搜索率 (SR, Search Ratio)。

主要实验结果

表1：MMSearch-R1在各基准测试中的性能表现。

MMSearch-R1-7B在5个VQA任务上平均准确率为54.6%，搜索率为67.1%。相比之下，同尺寸的RAG基线准确率为51.6%，搜索率为100%。这表明该模型在减少搜索行为的同时，获得了更高的准确率。甚至在平均准确率上超越了参数量是其4.6倍的Qwen2.5-VL-32B (RAG) 的55.1%。RL模型的搜索率大幅下降（平均降低32.9%）且准确率提升，证明其学会了“按需搜索”。RAG模型则无论问题难易都100%执行搜索，效率低下。

消融实验

图3：(a) 基础模型与经过强化学习训练的模型在RAG工作流程下的性能比较。(b) 基础模型（内圈）与强化学习模型（外圈）在InfoSeek和SimpleVQA上的答案行为细分。

图5：(a) 在五个VQA数据集上，SFT和RL相较于Base模型的性能提升。(b) 不同策略的奖励与搜索比率随训练变化的动态过程。

核心结论

MMRL增强查询与信息提取能力：为了排除搜索触发决策的干扰，实验在固定的RAG设置下（强制执行搜索）比较模型性能。结果显示RL训练后的模型依然优于基础模型（ID任务+6.51%，OOD任务+6.18%），说明RL不仅教会了模型“何时搜”，还提升了“搜什么”和“如何用”的能力，即生成更精准的查询和更好地总结检索结果。

MMRL提升内部知识利用能力：行为分析显示，RL模型在不调用搜索的情况下正确回答的比例显著上升。例如在InfoSeek上，从基础模型的17.6%上升至28.4%；在SimpleVQA上从33.5%上升至53.9%。这表明RL训练不仅没有削弱模型的内部知识，反而通过“逼迫”模型先思考，增强了其利用自身参数知识的能力。

MMRL优于SFT且数据效率更高：对比实验显示，RL仅需5k数据便在所有任务上超越了使用8k数据训练的SFT模型。SFT往往模仿教师模型（GPT-4o）的行为，而RL允许模型通过试错发现更优策略，特别是在MMSearch和LiveVQA等需要外部信息的任务上，RL模型表现出更高的搜索工具调用频率，行为更符合任务需求。

数据平衡与搜索惩罚至关重要：消融实验表明，移除搜索惩罚或数据平衡会导致搜索率飙升至近100%。虽然移除惩罚能让模型在需搜索的问题上答对更多，但代价是对所有问题都搜索，失去了“按需”的意义。只有两者结合，才能在保持奖励的同时维持低搜索率，塑造出高效的搜索行为。

通用VQA能力未受损：在AI2D、ChartQA等通用VQA基准上，MMSearch-R1-7B与基础模型表现相当，说明RL训练在增强搜索行为的同时，未损害模型的通用视觉理解能力。

四，局限性与未来影响

局限性：

① 工具交互依赖性：不管是图像搜索还是文本搜索流都依赖检索出来数据的质量，如果检索质量较差可能引入波动。

② 搜索深度有限：最多2次搜索+3轮对话，复杂多跳推理链路尚未充分探索。

③ 奖励函数灵活性：精确匹配对同义表达判罚过严。即相同表达也会被误判。

对未来工作的启示：

①更通用的奖励建模：探索语义级别的奖励信号。语义相同的回答也应该给予一定的奖励

②更丰富的工具箱：性能更好的检索工具，集成代码执行器、数据库查询、计算器等更多工具。

③更深的推理链：支持更多轮次的搜索-推理迭代，处理复杂多跳问题。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：玄枢战队-Arcane Hub Liu Liu《论文研读与思考|MMSearch-R1:激励大型多模态模型进行搜索》