论文解读:《ASurveyofContextEngineeringforLargeLanguageModels》

admin 2026-01-05 18:09:44 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本文解读了LLM上下文工程,强调通过设计优化信息组件提升模型表现。核心涵盖检索生成、上下文处理与管理三大组件,支持RAG、记忆系统、工具集成及多智能体等系统实现,并提出了多维度的评估框架,为构建高效AI应用提供理论与实践指导。 综合评分: 85 文章分类: AI安全,安全建设,解决方案


cover_image

论文解读:《A Survey of Context Engineering for Large Language Models》

原创

创新研究院

绿盟科技研究通讯

2026年1月4日 15:41 湖南

一.   上下文工程的意义

1.1

上下文工程是什么?

上下文(Context)是指输入给大型语言模型(LLM)的所有相关信息,包括用户提问、任务指令、示例和外部知识等。本文指出,LLM 的表现和能力“从根本上取决于所提供的上下文”。上下文工程(Context Engineering)即将上下文重新概念化为由多个信息组件构成的动态结构化载荷,通过系统化的方法设计、优化和管理这些信息组件,从而提升模型性能。这一学科超越了传统的提示工程(Prompt Engineering),关注如何构建、筛选和组织多源信息以驱动模型输出。

1.2.

上下文工程解决什么问题?

首先,上下文工程能够显著提升模型性能和可靠性。例如,检索增强生成(RAG)和链式思维提示等技术显示出信息检索和问题分解能力上的巨大增益;针对专门领域的上下文定制能降低通用模型与特定任务之间的差距。

其次,上下文工程优化资源利用:通过智能过滤和压缩技术,减少不必要的信息传递,从而降低计算代价与延迟。

最后,上下文工程支持模型灵活适应新任务:例如,无需再次训练即可通过上下文学习(in-context learning)让模型迁移到新任务。综上所述,上下文工程能够解决LLM处理长文本、信息更新、连贯性等瓶颈,为实现高效准确的知识驱动推理提供基础。

二.  上下文工程的构成

上下文工程建立在三大核心组件之上:上下文检索与生成、上下文处理、上下文管理。

图1: 上下文工程框架

2.1

上下文检索与生成

上下文检索与生成是上下文工程的基础组件,负责为大语言模型(LLMs)系统化地检索和构建相关上下文信息。该组件通过三大核心机制应对关键挑战:提示工程与上下文生成、外部知识检索、动态上下文组装。

2.1.1

提示工程与上下文生成

提示工程与上下文生成构成了上下文检索的基础层,这是上下文的“指令层”,负责引导模型的行为。包括系统指令、角色设定、任务描述和示例。相比早期人工编写提示,现代方法更强调结构化与自动化:

(1)任务指令提示词:明确模型的角色、输出格式和约束条件

(2)示例驱动提示词:通过示例或思维链引导模型思考

(3)认知架构整合:在上下文生成之前,引入一个具备状态判断、决策和规划能力的系统,由它来决定下一步应该如何构造上下文

2.1.2

外部知识检索

外部知识检索是上下文检索的关键组成部分,通过动态访问外部信息源(包括数据库、知识图谱和文档集合),解决了知识的局限性。当模型自身参数无法覆盖实时或专业知识时,需要引入外部信息。

2.1.3

动态上下文组装

动态上下文组装是指将获取的信息组件进行精密编排,形成连贯且针对特定任务优化的上下文结构,从而在满足计算限制的前提下,最大限度提升语言模型的性能表现。

2.2

上下文处理

上下文处理的核心任务是将获取的上下文信息进行转换与优化,从而最大化其对大语言模型(LLMs)的实用价值。该组件能够应对超长序列上下文的处理难题,支持迭代式自我优化与自适应机制,并能将多模态、关系型及结构化信息整合为连贯的上下文表征。其主要的工作包括:

  • 长上下文处理:采用如线性注意力、状态空间模型等架构创新,实现对超长序列的有效编码;
  • 自我精炼:允许模型通过自我评估和多轮反馈迭代来改善输出质量,类似人类的反复思考过程;
  • 多模态融合:将视觉、音频等不同模态的信息映射到同一语义空间,例如使用视觉提示生成器(VPG)将图像特征转换为文本令牌;
  • 结构化数据集成:将表格、知识图谱等结构化信息编码到上下文中,通过知识图嵌入或序列化表示提高模型的逻辑推理能力。

这些处理技术增强了上下文的表达能力,使模型能够综合多源信息进行推理。

2.3

上下文管理

上下文管理致力于高效组织、存储和利用大语言模型中的上下文信息。该组件通过开发复杂的内存层次结构和存储架构,以及实施压缩技术,在保持信息可访问性和连贯性的同时,最大限度地提高信息密度,从而解决有限上下文窗口带来的基本限制。它包括:

(1)记忆体系,构建分层存储架构,如类似操作系统的虚拟内存机制,将有限上下文窗口(相当于主存)与外部存储(相当于磁盘)衔接;利用键值缓存记录近期对话,支持多轮交互中对话内容的即时访问;

(2)上下文压缩,使用自编码器等技术将长上下文压缩到紧凑表达中,例如In-context Autoencoder (ICAE)可将上下文压缩4倍而保留关键信息;

(3)其他优化机制,如注意力修剪、知识蒸馏等方法进一步缩减传递信息的冗余。通过这些管理技术,系统能够突破原生Transformer固定窗口的限制,实现对更长时间和更多内容的理解和利用。

三.   基于上下文工程的系统实现

上下文工程的理念已经催生了多类实际系统架构,它们将上述组件集成到可部署的智能应用中。

3.1

RAG(检索增强生成)系统

检索增强生成技术通过将外部知识源与语言模型生成相结合,弥合了参数化知识与动态信息访问之间的鸿沟。该技术实现使模型能够通过模块化架构、智能体框架以及超越静态训练数据的图增强方法,获取当前 领域特定信息。RAG系统结合了外部检索与模型生成,进化为复杂的动态系统。

图2: 检索增强生成框架

  • 模块化RAG:系统采用分层检索-生成框架,允许灵活地路由和组合检索模块,实现动态配置。
  • 代理式RAG(Agentic RAG):引入自主决策代理,模型可以迭代地规划、检索和反思,比如自主选择何时检索和使用何种工具。
  • 图谱增强RAG:利用知识图谱等结构化知识捕捉实体间的复杂关系,引导检索路径,支持多跳推理,并减少“幻觉”现象。这些RAG变体能够为大语言模型提供新近、专业化的知识源,使生成更加准确。

3.2

记忆系统

此类系统为大语言模型引入持久化存储机制,使模型能够跨会话保存和检索信息。

图3: 记忆系统框架

  • 分层记忆架构:该设计借鉴操作系统,将短期上下文和外部数据库结合,例如MemGPT将上下文窗口视为有限的RAM,将长期历史视为硬盘,并自动在有限上下文与长期存储之间分页。
  • 记忆增强智能体:利用短期记忆(键值缓存)处理实时响应,同时将重要信息写入长期记忆数据库,实现经验积累。这种体系使得大语言模型从单次查询的模式匹配者转变为具有学习和记忆能力的持续智能体。

3.3

工具集成推理系统

此类系统将外部工具纳入推理链条,将大语言模型转化为能够改变环境的行动者。

图4: 工具增强系统框架

  • 函数调用机制:使大语言模型通过结构化输出调用外部API,将模型从仅生成文本扩展为与外部世界交互。例如,通过特定格式的JSON输出,模型可以调用搜索引擎、数学计算器等工具,并将结果纳入接下来的推理环节。
  • 工具集成推理:工具集成推理要求模型将复杂任务分解为子任务,自动选择合适工具解决每一步,从而克服知识过时、计算不足等问题。这种范式下,模型不仅语言理解能力强,还能调用专用程序提高推理的准确性和有效性。

3.4

多智能体系统

该类系统通过多个LLM智能体协同工作来完成复杂任务。这些系统采用复杂的通信协议、协调机制和组织策略,实现无缝的代理间协作。

图5: 多智能体系统框架

  • 通信协议:部分从20世纪90年代的KQML/FIPA ACL等语言起步,现在发展出如MCP、A2A等现代协议,使用JSON或HTTP标准化智能体之间的消息传递。
  • 编排机制:负责根据任务需求选择和分配代理,管理上下文分发和交互流程。通过这些机制,多智能体系统能够实现复杂任务的分工与协作,充分利用各代理的专长,同时维持整个工作流的一致性和效率。
  • 协作策略:包括辩论、角色扮演(如MetaGPT中的产品经理与工程师)等模式。

四.   评估框架与方法

由于上下文工程系统的复杂性,传统的评估方法已不再适用,需要多维度的评估框架。

4.1

对不同组件的评估方法

组件级评估侧重检测各部分的独立表现。

  • 提示工程组件:常用语义相似度、回答质量等指标,以及在多样化输入下的鲁棒性测试。
  • 长文本处理:采用“捞针式”测试来评估模型在超长上下文中定位特定信息的能力,以及多文档推理任务来考察信息整合效果。
  • 自我精炼:该机制通过通过元学习评估、适应速度测量以及多次迭代间的一致性分析进行评估。
  • 结构化信息集成:这部分主要关注知识图遍历、表格理解和数据库查询生成的准确度。目前这类评测仍存在挑战,如缺少高质量结构化推理基准等。

4.2

对不同系统的评估方法

系统级评估关注整体任务性能和协同效应。通过涵盖问答、推理及实际应用的综合基准,对下游任务的端到端性能进行评估,从而提供系统效用的整体性评价。

  • RAG系统:评估需同时涵盖精确度、召回率、相关性和事实准确性等综合指标,同时考量检索质量与生成效果。
  • 记忆系统:常使用长期记忆基准(如LongMemEval)评估长期对话中的信息提取、时间推理和知识更新能力。
  • 工具集成推理系统:评价覆盖整个交互过程,包括工具选择准确率、参数提取精度和执行成功率等。
  • 多智能体系统:评价则侧重通信效率、任务分解的准确性和整体协作效果,这些指标涉及协议的遵循性、任务分解准确性以及涌现的协作行为。

五.   结论

本篇文章简述了《A Survey of Context Engineering for Large Language Models》论文的主要内容。该论文确认了上下文工程作为新兴学科的重要地位,并首次提出了上下文工程的统一框架,将上下文相关技术划分为获取/生成、处理、管理三大组件,以及RAG、记忆系统、工具推理和多智能体四类系统实现。

参考文献

[1] Mei L, Yao J, Ge Y, et al. A survey of context engineering for large language models[J]. arXiv preprint arXiv:2507.13334, 2025.

内容编辑:创新研究院  苟桐

责任编辑:创新研究院   陈佛忠

本公众号原创文章仅代表作者观点,不代表绿盟科技立场。所有原创内容版权均属绿盟科技研究通讯。未经授权,严禁任何媒体以及微信公众号复制、转载、摘编或以其他方式使用,转载须注明来自绿盟科技研究通讯并附上本文链接。

关于我们

绿盟科技研究通讯由绿盟科技创新研究院负责运营,绿盟科技创新研究院是绿盟科技的前沿技术研究部门,包括星云实验室、天枢实验室和孵化中心。团队成员由来自清华、北大、哈工大、中科院、北邮等多所重点院校的博士和硕士组成。

绿盟科技创新研究院作为“中关村科技园区海淀园博士后工作站分站”的重要培养单位之一,与清华大学进行博士后联合培养,科研成果已涵盖各类国家课题项目、国家专利、国家标准、高水平学术论文、出版专业书籍等。

我们持续探索信息安全领域的前沿学术方向,从实践出发,结合公司资源和先进技术,实现概念级的原型系统,进而交付产品线孵化产品并创造巨大的经济价值。

长按上方二维码,即可关注我


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:绿盟科技研究通讯 创新研究院《论文解读:《A Survey of Context Engineering for Large Language Models》》

评论:0   参与:  0