2025-12-22 04:11:05 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文介绍了LLM-PEA框架，用于评估大语言模型在识别钓鱼邮件方面的能力。研究发现GPT-4o、ClaudeSonnet4和Grok-3等主流LLM在标准测试中表现良好，但在面对提示注入、文本重构和多语言攻击等复合型攻击时存在显著漏洞。实验表明，在对抗攻击测试中，GPT-4o误判率为4.2%，Claude为12.7%，Grok-3完全失守；在多语言测试中，模型误报率大幅上升。文章指出，若要将LLM用于邮件安全系统，需进行专门的加固训练和多维度防御设计。 综合评分： 88 文章分类： AI安全,威胁情报,漏洞分析,网络安全,应用安全

cover_image

【论文速读】| LLM-PEA：基于大语言模型的钓鱼邮件攻击防御框架

原创

知识分享者

安全极客

2025年12月16日 17:36 北京

基本信息

原文标题：LLM-PEA: Leveraging Large Language Models Against Phishing Email Attacks

原文作者：Najmul Hassan, Prashanth BusiReddyGari, Haitao Zhao, Yihao Ren, Jinsheng Xu, Shaohu Zhang

作者单位：

∗ University of North Carolina at Pembroke, USA

† North Carolina A&T State University, USA

关键词：Phishing email attack，LLM，Prompt injection，多语言攻击，对抗样本

原文链接：https://arxiv.org/abs/2512.10104

开源代码：暂无

论文要点

论文简介：本文提出了一种基于大语言模型（LLMs）的全新评估框架 —— LLM-PEA，用于识别并防御多种钓鱼邮件攻击。研究聚焦于三个主要威胁向量：提示注入（Prompt Injection）、文本重构（Text Refinement）以及多语言攻击（Multilingual Attacks），并对三种最先进的语言模型——GPT-4o、Claude Sonnet 4 和 Grok-3——在这些攻击场景下的鲁棒性进行系统性评估。实验表明，虽然这些模型在标准测试中可实现超90%的准确率，但在面对复合型攻击时依然存在较大的安全隐患。作者认为，要将LLM真正部署于邮件安全系统，还需进行专门的加固训练与多维度防御设计。

研究目的：

随着LLM在各类文本任务中表现优异，越来越多的安全系统尝试将其引入邮件检测领域，期待它能胜任钓鱼邮件识别。但由于LLM存在天然的“听话”机制，它们也极易受到输入干扰，如提示注入等攻击方式。当前的研究多数聚焦于单一类型的漏洞测试，未能覆盖真实世界中“多向量复合攻击”的情况。为此，本文设计了一个全维度测试框架，用于揭示这些攻击方式如何交互影响模型判断，最终导致系统失效。

研究贡献：

提出LLM-PEA框架，支持从多个维度全面评估LLM在面对钓鱼邮件攻击时的表现。
实证分析显示，当前LLM在面对多种攻击交叉组合时存在显著漏洞，而这在传统的单维度评估体系中常被忽略。
指出当前主流LLM模型尚需加固，以满足在自动化邮件安全系统中的使用要求。

引言

钓鱼攻击作为网络安全领域的“老对手”，依旧是攻击者窃取用户凭证、敏感信息的重要手段。尤其是在LLM被广泛集成至各种应用的今天，攻击者也在不断进化其手法，通过提示注入、语言混淆、多语言障碍等方式，悄然绕过传统检测逻辑。

例如，虽然目前已有像TextAttack那样的对抗样本生成框架，但它们通常只测试模型在词句扰动下的表现，并未关注提示注入或跨语言影响。同样的，现有多语言评估基准也常忽视安全维度的考量。本文指出，正是这种评估碎片化的问题，导致了我们对LLM真实脆弱性的误判。

LLM-PEA框架由三个主要模块构成：邮件预处理、对抗攻击生成和LLM决策模块。攻击模拟策略包含多种方式，如上下文操控、结构重排、权威伪装、多语言翻译等，真实还原黑产在现实中使用的高级伪装技巧。这种模拟允许研究者观察在最贴近实战的条件下，LLM的表现是否稳定，是否容易被绕过。

相关工作

过去几年中，学术界在利用深度学习对抗钓鱼邮件方面做出了大量尝试，如CNN-BiGRU、双向LSTM等架构均曾用于分类任务。而BERT及其变体的引入也提高了模型的表达能力和准确率。

然而，LLM的引入既带来了更强的理解能力，也带来了前所未有的风险。研究者已证实，攻击者可以在输入中植入看似普通但实则指令性的提示，误导模型输出不安全或错误的响应。这种“提示注入”成为一种新兴的攻击向量。

此外，多语言处理能力的不均衡也为黑产提供了突破口。在资源较少的语言中，如孟加拉语、印地语等，模型的准确率和鲁棒性常大幅下降，容易被绕过检测。

综上，本文认为应从多维度联动考虑这些漏洞，建立一个覆盖全面的统一评估标准，这也正是LLM-PEA框架的设计初衷。

系统设计

本节将概述 LLM-PEA 框架及威胁模型，并提供相关设计细节。

A. 系统概述

图 1 展示了本文评估框架 LLM-PEA 的架构，该流程包含三个核心组件：（1）邮件摄入模块、（2）对抗性攻击生成模块、（3）大语言模型下游决策模块。

邮件摄入层先提取邮件内容并进行标准化处理，再将其传递至攻击生成模块。对抗性攻击生成模块采用多种钓鱼邮件操纵策略（如指令注入、段落重构、上下文篡改、权威冒充、多语言转换等），生成用于探测模型漏洞的对抗性变体样本。这些人工构造的样本随后被送入下游大语言模型决策与响应层，由该层执行钓鱼检测或内容评估。下游决策层支持系统分析大语言模型在不同钓鱼攻击模式下的行为表现，并为跨模型、跨攻击类型的鲁棒性评估提供可复现的测试基础。

B. 威胁模型

本文考虑的攻击者为内容级攻击者，其目标是构造能够规避检测的钓鱼邮件，或操纵大语言模型生成不安全、具有误导性的输出。攻击者通过邮件接口间接访问大语言模型，具体设定如下：

攻击者目标：攻击者旨在实现两类攻击效果：一是将钓鱼邮件误分类为良性邮件；二是诱导大语言模型对钓鱼内容执行不安全的转换操作（如重写、润色或提供实施指导）。核心目标是绕过或破坏基于大语言模型的邮件分析流程的安全机制。
攻击者能力：攻击者可构造任意邮件文本，并运用多种操纵策略，包括但不限于：

改写表述（Rephrasing）：调整句子与段落结构；
指令注入（Instruction Injection）：在邮件正文中嵌入越狱提示词或隐藏指令；
上下文篡改（Context Manipulation）：添加误导性叙事上下文以掩盖恶意意图；
滥用权威（Authority Exploitation）：冒充可信个人或机构身份；
突破信任防线（Confidence Bypass）：使用具有说服力或紧急性的情感暗示；
逻辑矛盾（Logical Contradiction）：嵌入前后不一致或混淆性表述；
技术伪装（Technical Exploitation）：操纵 URL、类系统标记或伪技术内容；
多语言攻击（Multilingual Attack）：以非英语或混合语言格式构造邮件。

攻击面：大语言模型的文本输入接口是主要攻击面。攻击者仅通过邮件内容实施操纵，不涉及基于附件的漏洞利用、网络层攻击或被盗账户等攻击手段。假设大语言模型以固定系统指令处理邮件，且不验证发件人身份的真实性；防御方对攻击者的具体操纵技术无先验知识。

C. 提示词设计

本文设计三类提示词用于数据集评估，包括结构化提示词、零样本提示词和思维链（CoT）提示词：

结构化提示词：明确枚举五项检测标准（紧急性表述、可疑域名、敏感信息索取、语法错误、非专业格式）。本文假设，明确的指导可提升分类一致性并降低漏报率。
零样本提示词：仅提供最低限度的指令，不包含示例或详细指导，用于测试模型的固有钓鱼检测能力，评估模型在预训练阶段是否已内化钓鱼邮件特征。
思维链（CoT）提示词：要求模型在分类前执行逐步分析。尽管列举的检测指标与结构化提示词类似，但思维链提示词强调模型的内部推理过程，测试在计算成本增加的情况下，审慎分析是否能提升检测准确率。

所有提示词均明确要求模型仅输出 “钓鱼邮件（Phishing Email）” 或 “安全邮件（Safe Email）” 两类结果。若模型生成冗长回复，将通过后处理提取分类结论；无法解析出明确分类结果的回复将排除在分析之外。

研究评估

为系统性评估当前主流大语言模型在钓鱼邮件识别中的安全性，LLM-PEA框架设计了五种数据集场景，分别从标准分类、样本不平衡、对抗攻击、提示注入及多语言干扰等维度展开全面测试。

首先，在标准平衡数据集中，GPT-4o展现了95%的准确率，Claude Sonnet 4为94%，Grok-3稍逊一筹，为88%，显示出主流LLM在基础场景下具备良好的检测能力。

但当面对现实中常见的不平衡数据集（90%正常邮件 vs. 10%钓鱼邮件）时，模型表现波动明显。其中，GPT-4o在“零样本提示”下F1值最高（0.864），而Grok-3在结构化提示下准确率急剧下降，暴露其在应对极端数据偏斜时的鲁棒性不足。

在对抗攻击测试中，研究者对189封原本被正确识别的钓鱼邮件进行语义重写，再重新输入模型。结果显示，即使是GPT-4o也有4.2%的误判率，Claude误判高达12.7%，Grok-3则完全失守。