文章总结: 本文是AIAgent课程的概览章节,通过对比LLM与Agent的核心差异,指出Agent具备思考与行动能力的关键在于整合规划、记忆、工具等组件。文章概述了Agent在2024-2026年的发展历程、核心公式(Agent=LLM+规划+记忆+工具)及其ReAct执行循环,并提供了从理论到实践的七层递进式学习路线图,旨在为学习者建立Agent开发的整体认知框架。 综合评分: 85 文章分类: 安全培训
第0章 AI Agent 课程概览与前置知识
原创
网络安全民工 网络安全民工
网络安全民工
2026年6月13日 21:25 北京
在小说阅读器读本章
去阅读
0.1 Agent 是什么?—— 用类比建立直觉
要理解 Agent,先看一个最简单的对比:
❌ 普通 LLM(如 ChatGPT 基础版):
用户:「北京明天天气怎么样?」
LLM:「抱歉,我无法获取实时数据。」 ← 只会”说”,不会”做”
为什么?因为 LLM 的「世界」只有训练数据。它就像一个被困在房间里
的人,只能靠记忆回答。它不知道「现在」发生了什么。
✅ AI Agent:
用户:「北京明天天气怎么样?」
Agent 内部执行了 4 步:
- 思考(Think):用户想知道天气 → 我需要调用天气查询工具
- 2. 行动(Act):调用 get_weather(“北京”) → 发送 HTTP 请求到天气 API
-
观察(Observe):返回 {“明天”: “晴,25°C”} → 拿到真实数据
-
回答:用自然语言组织结果 → 「北京明天晴天,气温 25°C」
核心区别:
-
LLM = 「大脑」(会思考,但只能靠记忆)
-
Agent = 「大脑 + 手」(会思考 + 能获取新信息、执行操作)
-
这就引出了 Agent 开发的核心思维:我们不是在教 LLM 更多知识,
而是在给它装「手」——让它能查、能算、能操作。这才是 Agent 和
聊天机器人的本质分界线。
0.2 为什么 Agent 是 2024-2026 年最热门方向?
关键时间线:
── 2023: LLM 之年 ──
-
2023.03: AutoGPT 开源,Star 数一周破 10 万
-
2023.06: OpenAI 发布 Function Calling
-
2023.10: LangChain 发布 LangGraph(Agent 编排框架)
-
2023.12: MemGPT 论文发布(LLM as Operating System)
-
── 2024: RAG 与 Agent 元年 ──
-
2024.05: OpenAI 发布 GPT-4o,原生支持工具调用
-
2024.10: Anthropic 发布 Computer Use(Claude 操控电脑)
-
2024.11: Anthropic 发布 MCP 协议(Agent ↔ 工具的 USB-C)
-
── 2025: Agent 爆发之年 ──
-
2025.01: DeepSeek-R1 发布,推理能力大幅提升
-
2025.02: Claude Code 正式发布(工业级编码 Agent 标杆)
-
2025.04: Google 联合 50+ 企业发布 A2A 协议(Agent ↔ Agent)
-
2025.09: Anthropic 发布 Claude Agent SDK(通用 Agent 框架)
-
2025.10: Anthropic Computer Use 正式发布(production-ready)
-
2025.12: OpenAI 发布 CUA (Computer Using Agent)
-
── 2026: Agent 基础设施成熟 ──
-
2026.03: Letta 发布 Filesystem Memory 方案(LoCoMo 74.0%)
-
2026: MCP / A2A 成为行业标准,Agent 中间件生态涌现
-
就业信号(2025-2026):
-
“AI Agent 工程师” 岗位同比增长 300%+
-
大厂(字节/腾讯/阿里/Google/Meta)均设立 Agent 专项团队
-
硅谷 VC 投资方向全面转向 Agent 赛道
-
Agent 工程师薪资范围:一线城市 25K-80K(视经验和公司)
-
0.3 Agent 核心公式
Agent = LLM + 规划(Planning) + 记忆(Memory) + 工具(Tools)
📊 架构示意
┌─────────────────────────────────────────────┐ │ AI Agent │ │ ┌─────────┐ ┌────────┐ ┌──────────────┐ │ │ │ LLM │ │ 规划器 │ │ 记忆系统 │ │ │ │ (大脑) │ │Planning│ │ Memory │ │ │ └────┬────┘ └───┬────┘ └──────┬───────┘ │ │ │ │ │ │ │ └───────────┼──────────────┘ │ │ │ │ │ ┌──────┴──────┐ │ │ │ 工具调用 │ │ │ │ Tools │ │ │ │ 搜索/API/代码│ │ │ └─────────────┘ │ └─────────────────────────────────────────────┘
Agent 执行循环(核心,面试高频!):
- 感知(Perceive):接收用户输入和上一次行动的结果
- 2. 思考(Think):LLM 分析当前状态,决定下一步
-
行动(Act):调用工具或生成最终回答
-
观察(Observe):获取行动结果
→ 回到步骤 1,直到任务完成
这个循环被称为「ReAct 循环」(Reasoning + Acting),
是 99% 的 Agent 框架的底层逻辑。
0.4 全套学习路线图(36章七层递进)
本课程按「理论 → 实践 → 深度 → 工程 → 架构 → 补强 → 专家」七层递进,
共 36 章(Ch0-Ch36),每章既是完整讲义也是可运行代码。
📊 架构示意
┌─────────────────────────────────────────────────────────────┐ │ 第1层:Agent 理论基础(Ch0-3) │ │ ┌──────────────┬──────────────────────────────────────────┐ │ │ │ Ch0 课程概览 │ 学习路线图、环境搭建、API Key 配置 │ │ │ │ Ch1 第一个Agent│ 裸写 ReAct 循环、Function Calling 原理 │ │ │ │ Ch2 核心组件 │ 规划器 + 记忆系统 + 工具设计黄金法则 │ │ │ │ Ch3 类型分类 │ ReAct / Plan-Execute / Reflexion 对比 │ │ │ └──────────────┴──────────────────────────────────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 第2层:工程实践与框架(Ch4-7) │ │ ┌──────────────┬──────────────────────────────────────────┐ │ │ │ Ch4 主流框架 │ LangChain Agent + LangGraph 状态机实战 │ │ │ │ Ch5 多智能体 │ Multi-Agent 协作、Writer+Reviewer 模式 │ │ │ │ Ch6 评估测试 │ 评测框架 + LLM-as-Judge + 生产 Checklist │ │ │ │ Ch7 求职面试 │ 20道高频面试题 + 项目指南 + 面试流程 │ │ │ └──────────────┴──────────────────────────────────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 第3层:深度技术剖析(Ch8-12) │ │ ┌──────────────┬──────────────────────────────────────────┐ │ │ │ Ch8 ClaudeCode│ nO主循环·h2A实时Steering·上下文压缩·SubAgent│ │ │ Ch9 RAG深度 │ 从Naive到生产级·Chunk·Embedding·RRF │ │ │ Ch10 MCP协议 │ JSON-RPC·原语·能力协商·stdio/SSE传输层 │ │ │ Ch11 ToolCall │ OpenAI vs Anthropic·Streaming·Strict模式 │ │ │ Ch12 基础设施 │ OpenClaw架构·Harness·Agent生产化Checklist │ │ └──────────────┴──────────────────────────────────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 第4层:工程化与前沿(Ch13-18) │ │ ┌──────────────┬──────────────────────────────────────────┐ │ │ │ Ch13 FastAPI │ REST API·SSE·WebSocket·生产部署架构 │ │ │ Ch14 SQLite │ 5表Schema·WAL模式·会话/任务/用户管理 │ │ │ Ch15 A2A协议 │ AgentCard·Task·Artifact·多Agent协作 │ │ │ Ch16 MemGPT │ Core Memory·Heartbeat·Sleep-Time·FS记忆 │ │ │ Ch17 CompUse │ Screenshot-Action Loop·坐标计算·安全沙箱 │ │ │ Ch18 安全防护 │ Prompt Injection攻防·权限分级·4层防御 │ │ └──────────────┴──────────────────────────────────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 第5层:高级架构与优化(Ch19-24) │ │ ┌──────────────┬──────────────────────────────────────────┐ │ │ │ Ch19 Workflow │ Reflection·Routing·Orchestrator等7种模式 │ │ │ Ch20 Context │ Context Rot·预算管理·XML结构化Prompt │ │ │ Ch21 Streaming│ EventBus·动态中断·背压控制 │ │ │ Ch22 DSPy │ Signature→Module→Optimizer 自动优化 │ │ │ Ch23 CodeAgent│ CodeAct·ACI·Plan-Execute·SWE-bench横评 │ │ │ Ch24 可观测 │ Tracing Span树·LangSmith vs LangFuse │ │ └──────────────┴──────────────────────────────────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 第6层:基础能力补强(Ch25-28) │ │ ┌──────────────┬──────────────────────────────────────────┐ │ │ │ Ch25 向量库 │ Chroma·Pinecone·Milvus·Qdrant对比·Embedding│ │ │ Ch26 模型路由 │ Threshold·Cascade·Semantic·Cost-Aware 4种 │ │ │ Ch27 Prompt │ System Prompt 6模块模板·工具描述评分卡 │ │ │ Ch28 语义缓存 │ 三级缓存(Exact→Semantic→LLM)·Token预算 │ │ └──────────────┴──────────────────────────────────────────┘ │ ├─────────────────────────────────────────────────────────────┤ │ 第7层:专家级进阶(Ch29-36) │ │ ┌──────────────┬──────────────────────────────────────────┐ │ │ │ Ch29 多模态 │ 视觉+文本联合推理·多模态Tool Calling │ │ │ Ch30 可靠性 │ 熔断器·指数退避重试·幂等性·降级策略 │ │ │ Ch31 评测体系 │ GAIA·AgentBench·WebArena·tau-bench │ │ │ Ch32 自改进 │ Bad Case收集→自动改Prompt→评测验证 │ │ │ Ch33 Cache │ Anthropic Cache·推测解码·KV共享 │ │ │ Ch34 微调 │ LoRA微调·数据准备·成本收益对比 │ │ │ Ch35 数据飞轮 │ 交互采集→Bad Case识别→自动触发改进 │ │ │ Ch36 纵深安全 │ Canary Token·分层隔离·行为沙箱 │ │ └──────────────┴──────────────────────────────────────────┘ │ └─────────────────────────────────────────────────────────────┘
学习建议:
-
新手入门:按 Ch0 → Ch36 顺序学习,每章 1-2 小时
-
有基础者:直接跳到 Ch8 开始深度技术
-
面试突击(重点章节):
-
Ch7(面试20问) + Ch8(Claude Code) + Ch9(RAG) + Ch10(MCP)
-
Ch11(ToolCall) + Ch15(A2A) + Ch18(安全) + Ch19(Workflow)
-
构建产品:Ch13(FastAPI) + Ch14(SQLite) + Ch24(可观测)
-
+ Ch26(模型路由) + Ch28(语义缓存)
-
降本增效:Ch26(路由节省94%) + Ch28(缓存) + Ch33(Prompt Cache)
-
0.5 前置知识自查清单
学习本课程前,你需要具备:
✅ Python 基础
-
会写函数、类、装饰器
-
会用 pip 安装包
-
理解异步编程(async/await)的概念(Ch1-12 了解即可,Ch13 必须)
-
了解 SQL 基础(Ch14 需要)
-
✅ LLM 基础认知
-
用过 ChatGPT / Claude / 文心一言 等产品
-
知道什么是 Prompt(提示词)
-
了解 Token 是什么
-
了解 Function Calling 的概念(Ch1 会详细讲)
-
✅ 基本概念
-
知道什么是 API 调用 / HTTP 协议
-
了解 JSON 数据格式
-
理解「函数」和「函数调用」的区别
-
了解 Git 基本操作
-
⚠️ 不需要:
-
不需要深度学习理论基础(不会训练模型)
-
不需要 C++ / CUDA
-
不需要分布式系统经验
-
不需要前端开发能力
-
0.6 环境搭建
下面是一键安装脚本,运行本文件即可检查环境。
如需运行后续章节的 Agent 代码,需要安装如下依赖:
📊 架构示意
┌────────────────────┬────────────────────────────────────┐ │ 章节 │ 需要的依赖 │ ├────────────────────┼────────────────────────────────────┤ │ Ch0 环境检查 │ 标准库(无需额外安装) │ │ Ch1-3 基础理论 │ openai, python-dotenv │ │ Ch4-5 框架 │ langchain, langchain-openai, │ │ │ langgraph │ │ Ch6-7 评测+面试 │ 无需额外依赖 │ │ Ch8-12 深度技术 │ pydantic, httpx, tiktoken │ │ Ch13 FastAPI │ fastapi, uvicorn │ │ Ch14 SQLite │ 标准库(无需额外安装) │ │ Ch15-18 协议/安全 │ 无需额外依赖(标准库) │ │ Ch19-21 架构流式 │ 标准库(无需额外安装) │ │ Ch22-24 优化可观测 │ 标准库(无需额外安装) │ │ Ch25 向量数据库 │ numpy(演示用) │ │ Ch26-28 路由/缓存 │ 标准库(无需额外安装) │ │ Ch29-36 专家进阶 │ 标准库(无需额外安装) │ └────────────────────┴────────────────────────────────────┘
⚡ 核心依赖一行安装(Ch1-18 必需):
pip install openai python-dotenv langchain langchain-openai \
langgraph pydantic httpx tiktoken fastapi uvicorn numpy
💡 大部分章节(Ch8-36)仅使用 Python 标准库
(sqlite3 / asyncio / hashlib / json / time),无需额外安装即可运行。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:网络安全民工 网络安全民工 网络安全民工《第0章 AI Agent 课程概览与前置知识》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论