文章总结: 本文总结了KDD24关于检索增强大语言模型的综述,针对LLM幻觉与知识过时缺陷,系统梳理了架构设计、训练策略及应用场景。内容涵盖检索与生成模块的技术细节,剖析了当前挑战并提出可信化、多模态等未来方向,为构建高可靠大模型应用提供了详实的理论框架与技术参考。 综合评分: 85 文章分类: AI安全,解决方案
《检索增强大语言模型(RA-LLMs) 的综述论文》学习
原创
simeon的文章 simeon的文章
小兵搞安全
2026年3月11日 21:49 北京
这篇发表于KDD ’24的综述聚焦检索增强大语言模型(RA-LLMs),针对大语言模型(LLMs)存在的幻觉、内部知识过时等固有缺陷,系统梳理了 RA-LLMs 的三大核心技术维度:架构设计、训练策略、应用场景,其中架构涵盖检索(稀疏 / 稠密、多粒度)、生成(白盒 / 黑盒)、检索融合增强(输入 / 输出 / 中间层)三类模块,训练策略分为无训练、独立训练、序列训练、联合训练四种方式,应用覆盖 NLP 基础任务、下游落地任务和特定领域场景;同时综述剖析了 RA-LLMs 当前面临的挑战,并提出可信化、多语言、多模态、提升外部知识质量四大核心未来研究方向,为该领域的后续探索提供了全面的理论框架和实践参考。
本文是发表于2024 年 KDD 会议(巴塞罗那) 的一篇关于检索增强大语言模型(RA-LLMs) 的综述论文,由香港理工大学主导,联合百度、新加坡国立大学等机构完成,针对 LLMs 的固有缺陷,系统梳理了 RA-LLMs 的技术体系、应用场景,并提出未来研究方向,核心内容分六大板块:
一、研究背景与动机
- 检索技术是数据挖掘基础,可从外部数据源提取相关信息,成功融合进生成模型形成检索增强生成(RAG),成为生成式 AI 的核心技术之一。
- LLMs 凭借大参数量和海量语料预训练,在推荐、分子发现等多任务表现优异,但存在三大固有缺陷:领域知识缺失、幻觉问题(法律领域幻觉率 69%-88%)、模型更新需巨额计算资源,限制了实际落地。
- RAG 可提供实时、权威的外部知识,有效缓解 LLMs 的上述问题,检索增强大语言模型(RA-LLMs) 应运而生,亟需系统性的综述梳理该领域进展。
二、RA-LLMs 核心架构
RA-LLMs 的架构由检索、生成、检索融合增强三大核心模块构成,各模块的关键设计如下表:
| 模块 | 细分类型 / 方式 | 核心技术 / 代表模型 / 特点 | | — | — | — | | 检索模块 | 稀疏检索 | TF-IDF、BM25,基于词频的倒排索引匹配,无训练,性能依赖数据库 / 查询质量 | | | 稠密检索 | 双编码器(DPR)、单编码器(Contriever/Spider),嵌入到向量空间,可训练,灵活性强 | | | 检索粒度 | 文档 / 段落块(主流)、令牌(适合稀有模式)、实体 / 提及(适合实体中心任务,空间效率高) | | 生成模块 | 白盒生成器(参数可访问) | Encoder-Decoder(T5/BART)、Decoder-only,支持参数优化,适配不同检索 / 增强方式 | | | 黑盒生成器(参数不可访问) | GPT 系列、Codex、Claude,仅支持输入输出,聚焦检索 / 增强流程优化 | | 融合增强 | 输入层融合 | 拼接查询与检索内容,黑盒模型主流方式;FID/Atlas 采用并行融合,缓解输入长度限制 | | | 输出层融合 | 插值模型与检索的令牌分布(kNN-LM),加门控网络提升推理能力,无需额外训练 | | | 中间层融合 | 引入 CCA / 记忆注意力层(RETRO/EAE),高效处理大量检索块,需模型参数访问,黑盒模型不可用 |
三、RA-LLMs 训练策略
根据是否需要训练及训练方式,将 RA-LLMs 的训练策略分为四类,核心特点与方法如下:
- 无训练策略
- 无需额外训练,推理时直接利用检索知识,计算高效;
- 分两类:提示工程法(将检索内容融入 prompt,如 In-Context RALM)、检索引导令牌生成法(用检索信息校准令牌生成分布,如 kNN-KMs)。
- 独立训练策略
- 检索器与生成器完全独立训练,训练过程无交互;
- 生成器以负对数似然损失为核心,检索器分稀疏(基于 TF-IDF/BM25)和稠密(基于对比学习)两类。
- 序列训练策略
- 先训练一个模块并冻结参数,再以其为指导训练另一模块,提升模块协同性;
- 分检索器优先(如 RETRO 用预训练 BERT 做检索器,再训生成器)和LLMs 优先(如 DKRR 用 LLMs 注意力分数训练检索器)两类。
- 联合训练策略
- 端到端同时优化检索器与生成器,提升检索器的知识定位能力和生成器的知识利用能力;
- 代表方法如 RAG/REALM,采用最大内积搜索(MIPS) 定位相关文档,异步更新索引减少训练耗时。
四、RA-LLMs 的应用场景
RA-LLMs 凭借外部知识增强的优势,广泛应用于NLP 基础应用、下游落地任务、特定领域应用三大方向,核心应用场景如下:
- NLP 基础应用
- 问答系统(OpenQA):REALM/Fusion-in-Decoder 通过检索提升答案准确性,答案质量高度依赖检索结果;
- 聊天机器人:检索静态知识库 / 互联网信息,提升对话的丰富性和上下文连贯性;
- 事实核查:Self-RAG 引入自反思机制,判断检索信息的有效性,大幅提升核查准确率。
- 下游落地任务
- 推荐系统:Di Palma/CoRAL 检索物品 / 评论知识,提升个性化推荐效果,解决长尾推荐问题;
- 软件工程:检索代码库实现代码生成 / 修复、Text-to-SQL 语义解析,提升开发效率。
- 特定领域应用
-
AI for Science
:检索分子 / 蛋白结构知识,助力药物发现(MolReGPT)、蛋白表征(RSA);构建临床问答系统(Clinfo.ai),检索科学文献回答医学问题;
-
金融领域
:检索新闻 / 社交媒体信息提升金融情感分析精度,结合 PDF 解析器实现金融报告 QA,基于结构的文档分块优化生成质量。
五、RA-LLMs 的现存挑战与未来方向
当前 RA-LLMs 仍处于发展初期,存在诸多挑战,综述提出四大核心研究方向,均为该领域的重点探索方向:
- 可信 RA-LLMs
- 现存问题:易被恶意操纵、隐私泄露风险、决策不可解释、存在歧视性;
- 核心目标:实现鲁棒性、公平性、可解释性、隐私性四大特征,适配安全关键场景。
- 多语言 RA-LLMs
- 现存问题:对小语种 / 低资源语言支持不足,知识检索依赖主流语言语料;
- 核心目标:融合多语言知识检索与生成,打破语言壁垒,提升低资源语言任务性能。
- 多模态 RA-LLMs
- 现存问题:当前以文本单模态为主,知识来源受限;
- 核心目标:融合图像 / 视频 / 音频等多模态知识,提升模型对用户需求的全面理解,适配医疗、分子分析等领域。
- 提升外部知识质量
- 现存问题:主流外部知识库(如维基百科)内容准确性参差不齐,低质量知识会误导模型生成;
- 核心目标:构建高质量外部知识语料库,设计鲁棒的过滤机制,降低低质量知识的负面影响。
六、综述核心贡献
- 首次从架构、训练策略、应用三大技术视角系统梳理 RA-LLMs 的研究进展,弥补了该领域缺乏系统性综述的空白;
- 与现有相关综述相比,更聚焦 RA-LLMs 的技术范式,对模型架构和训练方法进行了精细化分类与分析;
- 明确了 RA-LLMs 的核心挑战,并提出四大有前景的未来研究方向,为该领域的后续研究提供了清晰的指引。
关键问题
问题 1:RA-LLMs 如何解决传统 LLMs 的幻觉问题,核心技术路径是什么?
答案:RA-LLMs 通过引入外部权威 / 实时的知识检索从根源上缓解幻觉问题,核心技术路径分为三层:1)检索模块从外部知识库提取与查询相关的知识,替代 LLMs 易出错的内部隐式知识;2)融合增强模块将检索知识以输入层 / 输出层 / 中间层的方式融入生成过程,让模型基于真实知识生成内容;3)部分模型引入自反思机制(如 Self-RAG),判断检索知识的有效性和可靠性,进一步过滤错误信息;此外,训练策略上通过联合 / 序列训练提升检索器与生成器的协同性,确保检索知识的精准性和利用效率,最终实现幻觉率的降低(如对话任务中 RAG 技术可有效减少幻觉)。
问题 2:稀疏检索和稠密检索是 RA-LLMs 检索模块的两大类型,二者的核心差异是什么,分别适用于哪些场景?
答案:二者的核心差异体现在编码方式、可训练性、灵活性、性能依赖四个方面,适用场景也因特点不同而区分:1)编码方式:稀疏检索基于词频做离散编码(如 TF-IDF/BM25),稠密检索将查询 / 文档嵌入到连续向量空间做语义编码;2)可训练性:稀疏检索为无训练方式,稠密检索支持预训练和微调,可适配特定任务;3)灵活性:稀疏检索仅支持相似度检索,稠密检索可实现多样化检索(如 ICL 中的多样例检索);4)性能依赖:稀疏检索性能高度依赖数据库和查询的词频特征,稠密检索性能由嵌入模型和训练数据决定;适用场景:稀疏检索适用于对计算资源要求低、语料词频特征明显的基础检索场景(如简单文档检索),稠密检索适用于知识密集型、需要语义理解的场景(如 OpenQA、实体链接、低资源语言检索),也是当前 RA-LLMs 的主流检索方式。
问题 3:针对参数不可访问的黑盒 LLMs(如 GPT 系列),RA-LLMs 在架构和训练上有哪些专属的设计策略?
答案:由于黑盒 LLMs 无参数访问权限,无法进行中间层融合和参数优化,RA-LLMs 的专属设计策略聚焦检索模块优化和融合增强方式适配,且训练上以无训练 / 轻量训练为主:1)架构层面:融合增强仅采用输入层融合(主流方式),将检索知识与查询拼接为新 prompt 输入模型,部分方法通过上下文压缩(如 RECOMP)、并行融合(如 Atlas)缓解输入长度限制;检索模块优先选择轻量可训练的稠密检索器(如 Contriever),或训练专用的提示检索器为黑盒 LLMs 提供最优 ICL 样例;2)训练层面:几乎不采用需要修改生成器参数的联合 / 序列训练,以无训练策略为主,通过提示工程将检索知识融入生成过程,或采用轻量的 LLMs 优先训练方式,用黑盒 LLMs 的输出信号训练检索器,实现检索器与黑盒生成器的弱协同;3)流程层面:增加检索知识的预处理步骤(如文档压缩、结构分块),减少黑盒 LLMs 处理冗余信息的成本,提升生成效率和准确性。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:小兵搞安全 simeon的文章 simeon的文章《《检索增强大语言模型(RA-LLMs) 的综述论文》学习》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。



![[更新]红队加载器LoaderV3](/images/random/titlepic/5.jpg)





评论