专题解读|检索增强生成(RAG)在图问答中的应用

admin 2025-12-22 04:27:40 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本文介绍两项将检索增强生成(RAG)应用于图问答任务的研究:ChainRAG和G-Retriever。ChainRAG针对多跳问答中的检索丢失问题,通过句子图构建和子问题重写机制提升性能,在MuSiQue数据集上提升约60%。G-Retriever提出首个通用文本图RAG方法,将子图检索建模为PCST优化问题,在三个数据集上平均提升40.6%,并显著减少token使用和训练时间。两项研究共同展示了RAG技术在图问答中的潜力,为构建更智能的图AI系统奠定基础。 综合评分: 85 文章分类: AI安全,WEB安全,数据安全,应用安全,解决方案


cover_image

专题解读|检索增强生成(RAG)在图问答中的应用

张彬睿

北邮 GAMMA Lab

2025年12月15日 15:47 北京

专题解读|检索增强生成(RAG)在图问答中的应用

一、简介

随着大语言模型(LLM)在自然语言处理领域的快速发展,如何使其有效处理复杂的图结构数据成为一个重要挑战。现实世界中大量数据本质上具有图结构(如知识图谱、场景图、社交网络等),且许多图的节点和边包含丰富的文本属性。然而,LLM在处理图数据时面临着幻觉、可扩展性和检索效率等问题。检索增强生成(RAG)技术通过从外部知识源检索相关信息来增强LLM的生成能力,为解决这些问题提供了新思路。本文聚焦两项将RAG应用于图问答任务的最新研究:ChainRAG和G-Retriever,分别针对多跳问答中的”检索丢失”问题和通用文本图理解提出了创新解决方案。

二、ChainRAG: 缓解多跳问答中的”检索丢失”问题

文章链接:https://arxiv.org/abs/2502.14245

ChainRAG针对多跳问答中的”检索丢失”(lost-in-retrieval)问题:当子问题缺少明确的关键实体而使用指代词(如”this”、”it”等)时,检索性能会急剧下降。实证研究表明,第二个子问题的Recall@2平均比第一个子问题低18.29%。

2.1. 句子图构建

ChainRAG构建句子图 ,其中节点为句子,边表示句子间的关系。三种边类型包括:实体共现边(EC)连接共享关键实体的句子();语义相似边(SS)连接语义相似的句子(基于embedding相似度);结构邻接边(SA)连接原文中相邻的句子()。

2.2. 渐进式检索与重写

检索流程包括问题分解、种子句子检索(基于余弦相似度选择top-k句子)和图扩展(从种子句子迭代探索邻居)。核心创新是子问题重写机制,利用前序子问题答案补全缺失实体:

2.3. 答案整合

ChainRAG提供两种答案整合方法。子答案整合(AnsInt)直接使用子问题及其答案生成最终答案:

子上下文整合(CxtInt)整合所有检索的句子后生成答案:

2.4. 实验结果

在三个数据集上的实验表明,ChainRAG相比NaiveRAG在MuSiQue上提升约60%,平均F1达到57.94%(AnsInt)和59.92%(CxtInt with Qwen2.5-72B)。子问题重写使Recall@2提升12-18%,消融实验显示移除重写机制导致性能下降12.7%。相比HippoRAG,ChainRAG减少63%的LLM调用次数。

三、G-Retriever: 通用文本图的检索增强生成

文章链接:https://arxiv.org/abs/2402.07630

G-Retriever提出首个针对通用文本图的RAG方法,通过将子图检索建模为Prize-Collecting Steiner Tree(PCST)优化问题,实现”与图对话”的愿景。

3.1. GraphQA基准

G-Retriever构建了综合的图问答基准,包含三个数据集:ExplaGraphs(2,766图,5.17平均节点,常识推理)、SceneGraphs(100,000图,19.13平均节点,场景图问答)和WebQSP(4,737图,1,370.89平均节点,知识图谱问答)。

3.2. 方法框架

G-Retriever包含四个步骤。索引阶段使用预训练LM编码节点和边:

检索阶段基于余弦相似度检索top-k节点和边:

子图构建是核心创新,将检索建模为PCST优化问题:

其中奖励分配为 (第 个top节点),成本函数为 。

答案生成阶段首先通过图编码器获得图表示:

然后投影到LLM空间:

同时将子图文本化并嵌入:

最后LLM生成答案:

其中LLM参数 冻结,仅训练图编码器 和投影层 。

3.3. 实验结果

G-Retriever在三个数据集上均取得最佳性能,相比提示调优平均提升40.6%。在效率方面,SceneGraphs上token减少83%、训练时间减少29%,WebQSP上token减少99%、训练时间减少67%。幻觉缓解实验显示,完全有效图的比例从8%提升到62%,幻觉率降低54%。

四、总结

ChainRAG通过渐进式检索和实体补全,针对性地解决了多跳问答中的”检索丢失”问题。G-Retriever通过PCST优化和图提示调优,构建了首个通用文本图RAG框架,在幻觉缓解、效率提升和可扩展性方面取得了突破。两项工作共同展示了RAG技术在图问答中的巨大潜力,为构建更智能、更可靠的图AI系统奠定了坚实基础。

本期责任编辑:杨成

本期编辑:郭枫

北邮 GAMMA Lab 公众号

主编:石川

责任编辑:杨成

编辑:郭枫


查看原文:《专题解读|检索增强生成(RAG)在图问答中的应用》

评论:0   参与:  2