文章总结: 本文介绍两项将检索增强生成(RAG)应用于图问答任务的研究:ChainRAG和G-Retriever。ChainRAG针对多跳问答中的检索丢失问题,通过句子图构建和子问题重写机制提升性能,在MuSiQue数据集上提升约60%。G-Retriever提出首个通用文本图RAG方法,将子图检索建模为PCST优化问题,在三个数据集上平均提升40.6%,并显著减少token使用和训练时间。两项研究共同展示了RAG技术在图问答中的潜力,为构建更智能的图AI系统奠定基础。 综合评分: 85 文章分类: AI安全,WEB安全,数据安全,应用安全,解决方案
专题解读|检索增强生成(RAG)在图问答中的应用
张彬睿
北邮 GAMMA Lab
2025年12月15日 15:47 北京
专题解读|检索增强生成(RAG)在图问答中的应用
一、简介
随着大语言模型(LLM)在自然语言处理领域的快速发展,如何使其有效处理复杂的图结构数据成为一个重要挑战。现实世界中大量数据本质上具有图结构(如知识图谱、场景图、社交网络等),且许多图的节点和边包含丰富的文本属性。然而,LLM在处理图数据时面临着幻觉、可扩展性和检索效率等问题。检索增强生成(RAG)技术通过从外部知识源检索相关信息来增强LLM的生成能力,为解决这些问题提供了新思路。本文聚焦两项将RAG应用于图问答任务的最新研究:ChainRAG和G-Retriever,分别针对多跳问答中的”检索丢失”问题和通用文本图理解提出了创新解决方案。
二、ChainRAG: 缓解多跳问答中的”检索丢失”问题
文章链接:https://arxiv.org/abs/2502.14245
ChainRAG针对多跳问答中的”检索丢失”(lost-in-retrieval)问题:当子问题缺少明确的关键实体而使用指代词(如”this”、”it”等)时,检索性能会急剧下降。实证研究表明,第二个子问题的Recall@2平均比第一个子问题低18.29%。
2.1. 句子图构建
ChainRAG构建句子图 ,其中节点为句子,边表示句子间的关系。三种边类型包括:实体共现边(EC)连接共享关键实体的句子();语义相似边(SS)连接语义相似的句子(基于embedding相似度);结构邻接边(SA)连接原文中相邻的句子()。
2.2. 渐进式检索与重写
检索流程包括问题分解、种子句子检索(基于余弦相似度选择top-k句子)和图扩展(从种子句子迭代探索邻居)。核心创新是子问题重写机制,利用前序子问题答案补全缺失实体:
2.3. 答案整合
ChainRAG提供两种答案整合方法。子答案整合(AnsInt)直接使用子问题及其答案生成最终答案:
子上下文整合(CxtInt)整合所有检索的句子后生成答案:
2.4. 实验结果
在三个数据集上的实验表明,ChainRAG相比NaiveRAG在MuSiQue上提升约60%,平均F1达到57.94%(AnsInt)和59.92%(CxtInt with Qwen2.5-72B)。子问题重写使Recall@2提升12-18%,消融实验显示移除重写机制导致性能下降12.7%。相比HippoRAG,ChainRAG减少63%的LLM调用次数。
三、G-Retriever: 通用文本图的检索增强生成
文章链接:https://arxiv.org/abs/2402.07630
G-Retriever提出首个针对通用文本图的RAG方法,通过将子图检索建模为Prize-Collecting Steiner Tree(PCST)优化问题,实现”与图对话”的愿景。
3.1. GraphQA基准
G-Retriever构建了综合的图问答基准,包含三个数据集:ExplaGraphs(2,766图,5.17平均节点,常识推理)、SceneGraphs(100,000图,19.13平均节点,场景图问答)和WebQSP(4,737图,1,370.89平均节点,知识图谱问答)。
3.2. 方法框架
G-Retriever包含四个步骤。索引阶段使用预训练LM编码节点和边:
检索阶段基于余弦相似度检索top-k节点和边:
子图构建是核心创新,将检索建模为PCST优化问题:
其中奖励分配为 (第 个top节点),成本函数为 。
答案生成阶段首先通过图编码器获得图表示:
然后投影到LLM空间:
同时将子图文本化并嵌入:
最后LLM生成答案:
其中LLM参数 冻结,仅训练图编码器 和投影层 。
3.3. 实验结果
G-Retriever在三个数据集上均取得最佳性能,相比提示调优平均提升40.6%。在效率方面,SceneGraphs上token减少83%、训练时间减少29%,WebQSP上token减少99%、训练时间减少67%。幻觉缓解实验显示,完全有效图的比例从8%提升到62%,幻觉率降低54%。
四、总结
ChainRAG通过渐进式检索和实体补全,针对性地解决了多跳问答中的”检索丢失”问题。G-Retriever通过PCST优化和图提示调优,构建了首个通用文本图RAG框架,在幻觉缓解、效率提升和可扩展性方面取得了突破。两项工作共同展示了RAG技术在图问答中的巨大潜力,为构建更智能、更可靠的图AI系统奠定了坚实基础。
本期责任编辑:杨成
本期编辑:郭枫
北邮 GAMMA Lab 公众号
主编:石川
责任编辑:杨成
编辑:郭枫
查看原文:《专题解读|检索增强生成(RAG)在图问答中的应用》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论