2025-12-22 04:27:40 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文介绍两项将检索增强生成(RAG)应用于图问答任务的研究：ChainRAG和G-Retriever。ChainRAG针对多跳问答中的检索丢失问题，通过句子图构建和子问题重写机制提升性能，在MuSiQue数据集上提升约60%。G-Retriever提出首个通用文本图RAG方法，将子图检索建模为PCST优化问题，在三个数据集上平均提升40.6%，并显著减少token使用和训练时间。两项研究共同展示了RAG技术在图问答中的潜力，为构建更智能的图AI系统奠定基础。 综合评分： 85 文章分类： AI安全,WEB安全,数据安全,应用安全,解决方案

cover_image

专题解读｜检索增强生成（RAG）在图问答中的应用

张彬睿

北邮 GAMMA Lab

2025年12月15日 15:47 北京

专题解读｜检索增强生成（RAG）在图问答中的应用

一、简介

随着大语言模型（LLM）在自然语言处理领域的快速发展，如何使其有效处理复杂的图结构数据成为一个重要挑战。现实世界中大量数据本质上具有图结构（如知识图谱、场景图、社交网络等），且许多图的节点和边包含丰富的文本属性。然而，LLM在处理图数据时面临着幻觉、可扩展性和检索效率等问题。检索增强生成（RAG）技术通过从外部知识源检索相关信息来增强LLM的生成能力，为解决这些问题提供了新思路。本文聚焦两项将RAG应用于图问答任务的最新研究：ChainRAG和G-Retriever，分别针对多跳问答中的”检索丢失”问题和通用文本图理解提出了创新解决方案。

二、ChainRAG: 缓解多跳问答中的”检索丢失”问题

文章链接：https://arxiv.org/abs/2502.14245

ChainRAG针对多跳问答中的”检索丢失”（lost-in-retrieval）问题：当子问题缺少明确的关键实体而使用指代词（如”this”、”it”等）时，检索性能会急剧下降。实证研究表明，第二个子问题的Recall@2平均比第一个子问题低18.29%。

2.1. 句子图构建

ChainRAG构建句子图，其中节点为句子，边表示句子间的关系。三种边类型包括：实体共现边（EC）连接共享关键实体的句子（）；语义相似边（SS）连接语义相似的句子（基于embedding相似度）；结构邻接边（SA）连接原文中相邻的句子（）。

2.2. 渐进式检索与重写

检索流程包括问题分解、种子句子检索（基于余弦相似度选择top-k句子）和图扩展（从种子句子迭代探索邻居）。核心创新是子问题重写机制，利用前序子问题答案补全缺失实体：

2.3. 答案整合

ChainRAG提供两种答案整合方法。子答案整合（AnsInt）直接使用子问题及其答案生成最终答案：

子上下文整合（CxtInt）整合所有检索的句子后生成答案：

2.4. 实验结果

在三个数据集上的实验表明，ChainRAG相比NaiveRAG在MuSiQue上提升约60%，平均F1达到57.94%（AnsInt）和59.92%（CxtInt with Qwen2.5-72B）。子问题重写使Recall@2提升12-18%，消融实验显示移除重写机制导致性能下降12.7%。相比HippoRAG，ChainRAG减少63%的LLM调用次数。

三、G-Retriever: 通用文本图的检索增强生成

文章链接：https://arxiv.org/abs/2402.07630

G-Retriever提出首个针对通用文本图的RAG方法，通过将子图检索建模为Prize-Collecting Steiner Tree（PCST）优化问题，实现”与图对话”的愿景。

3.1. GraphQA基准

G-Retriever构建了综合的图问答基准，包含三个数据集：ExplaGraphs（2,766图，5.17平均节点，常识推理）、SceneGraphs（100,000图，19.13平均节点，场景图问答）和WebQSP（4,737图，1,370.89平均节点，知识图谱问答）。

3.2. 方法框架

G-Retriever包含四个步骤。索引阶段使用预训练LM编码节点和边：

检索阶段基于余弦相似度检索top-k节点和边：

子图构建是核心创新，将检索建模为PCST优化问题：

其中奖励分配为（第个top节点），成本函数为。

答案生成阶段首先通过图编码器获得图表示：

然后投影到LLM空间：

同时将子图文本化并嵌入：

最后LLM生成答案：

其中LLM参数冻结，仅训练图编码器和投影层。

3.3. 实验结果

G-Retriever在三个数据集上均取得最佳性能，相比提示调优平均提升40.6%。在效率方面，SceneGraphs上token减少83%、训练时间减少29%，WebQSP上token减少99%、训练时间减少67%。幻觉缓解实验显示，完全有效图的比例从8%提升到62%，幻觉率降低54%。

四、总结

ChainRAG通过渐进式检索和实体补全，针对性地解决了多跳问答中的”检索丢失”问题。G-Retriever通过PCST优化和图提示调优，构建了首个通用文本图RAG框架，在幻觉缓解、效率提升和可扩展性方面取得了突破。两项工作共同展示了RAG技术在图问答中的巨大潜力，为构建更智能、更可靠的图AI系统奠定了坚实基础。

本期责任编辑：杨成

本期编辑：郭枫

北邮 GAMMA Lab 公众号

主编：石川

责任编辑：杨成

编辑：郭枫

查看原文：《专题解读｜检索增强生成（RAG）在图问答中的应用》