2025-12-22 04:22:42 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文介绍了利用大模型进行安全运营中高频IP智能分析的方案。通过将人工排查SOP转化为提示词，系统整合多源数据进行初步研判，工程师仅需复核。该方法结合白名单基线与重点筛选策略，实现了效率提升十倍以上和90%的准确率，并强调通过AI协同优化闭环持续改进模型效果，为人机协作的安全运营提供了实践范例。 综合评分： 91 文章分类： 安全运营,AI安全,解决方案,WEB安全,安全建设

cover_image

大模型安全运营-异常高频请求IP智能分析

原创

汤青松

青松阁主

2025年11月28日 09:26 北京

一、背景

日常安全运营中，会经常看到同一IP短时高频请求同一接口的异常现象；比如一个IP每分钟请求用户信息接口800次，明显超过正常请求频率（每分钟5次内），需及时研判。这种高频的IP虽然有很大风险，但是没办法单靠特征去确定，主要有两方面原因；正常业务可能有数据同步或者内部压力测试；但是恶意攻击自动化脚本拖库可能造成严重的数据泄露。

传统应对依赖人工排查，需跨系统验证威胁情报、WAF日志、NIDS数据等，流程繁琐，而且人看多了告警疲劳导致误判，影响核心安全工作推进。所以我在思考借助大模型，开发一套高频IP研判的自动化与智能化，由系统完成多维度筛查并输出判断依据，工程师来复核，提升效率与准确率。

二、设计思路

2.1 传统SOP

在用大模型分析之前，我们其实已经有一套人工排查流程（SOP），通过多维度信息交叉验证实现风险定性。完成该流程的标准化梳理后，拆解出具体的执行步骤：

查情报：先看威胁情报平台IP的历史行为——有没有被标记为“恶意IP”“拖库IP”，有没有攻击过其他企业的记录。
查WAF：查WAF日志这个IP的访问记录，看它有没有触发拦截规则——比如SQL注入、XSS、命令执行这些攻击特征。
翻NIDS：调这个IP的流量包，看它的连接特征——是“短连接频繁建立”（自动化工具的典型特征）还是“长连接稳定传输”（正常业务的特征），有没有发送异常的数据包。
算频率：从告警日志看这个IP的历史访问数据，对比“当前频率”和“正常频率”——比如平时这个IP访问/user/detail接口每分钟不超过10次，现在突然到800次，是“临时暴涨”还是“持续高频率”。
核身份：最后一步最关键，联系业务对接人、第三方合作方，确认有没有“批量调接口”的需求。

完成这套多维度排查流程后，判断单个IP平均耗时10-40分钟。对于”新注册合作方IP、无历史记录且请求参数特殊”等复杂场景，耗时还要延长至数小时。在异常IP高发期，工程师的工作时间被完全占用，非常影响安全运营的整体效能。

2.2 大模型分析

人工排查流程形成固定SOP之后，我发现其本质是”多维度数据采集-优先级排序分析-综合逻辑推理”的过程，正好大模型能把将分散在各系统的情报、日志数据关联分析，并且你可以跟他说一些比较范的白名单逻辑，解决了传统固定规则”一刀切”的弊端。

所以我把人工排查的标准化流程转化为大模型的推理框架，把多个系统数据输入模型，然后模型模拟人工逻辑输出初步判断结果。以113.XX.XX.24的IP分析为例，大模型的执行过程可分为三个阶段：

首先从各个系统提取数据，整理成大模型能看懂的“结构化信息”，比如：

IP: 113.XX.XX.24 |
接口: /user/detail |
请求次数: 800次/分钟 |
历史频率: 平日≤10次/分钟 |
威胁情报: 3个月前有撞库记录，近1个月无异常 |
WAF记录: 触发“疑似SQL注入”规则（请求含“or 1=1”），但未触发拦截 |
NIDS告警: 无明确攻击告警，连接特征为“短连接，最大并发8个” |
白名单状态: 不在固定白名单内 |
业务报备: 无历史报备记录

完成数据结构化处理后，需要给大模型配置明确的角色与任务指令：

作为拥有5年安全运营经验的工程师，需按'情报- WAF- NIDS-频率-并发-业务'的优先级顺序分析，最终输出'正常/恶意'的判断及核心依据

模型会跟着我们提示词的顺序来判断，比如首先通过情报判断存在潜在风险但非即时威胁；其次结合WAF日志，确定疑似攻击特征但未构成明确威胁；再通过NIDS数据排除大规模攻击工具的可能性；随后将频率暴涨识别为核心风险点；最后结合无业务报备的情况，综合输出”待确认”的结论，并明确标注”需联系业务侧核实临时调接口需求”的复核方向。

该推理过程完整复现了人工判断逻辑，且在细节处理上更为精准——既未忽视”近1个月无异常”的情报细节，也未因”历史风险记录”直接定性恶意，明确指出后续工作方向，相比传统规则引擎的判断结果更具参考价值。

2.3 成本控制

用大模型一般都要考虑效果与成本，把所有日志全量分析成本太高而且延迟大。所以这里平衡效率和成本有三点建议：

不分析全部流量

：先通过简单规则（比如“请求频率超过50次/分钟”“触发WAF疑似规则”）从大量日志里找到最可疑的IP，再交给大模型分析。
优化提示词

：把提示词从你帮我分析一下这个IP 改成按‘情报→WAF→频率→并发→业务顺序分析，给出‘正常/恶意/待确认’结论，用一句话说明理由，只说关键信息,这样大模型不会说废话，思考和输出的效率比较高，成本至少下降30%。
人机协同决策

：大模型仅输出初步判断及依据，最终决策权保留给工程师。对于”待确认”的IP，工程师通过1分钟的业务核实即可完成闭环；对于”恶意”IP，只需要30秒复核攻击证据，避免了AI误判风险，又不增加人工工作量。

三、实施步骤

3.1 数据准备

实施的第一步是完成数据标准化处理，这是确保模型输出质量的基础。我们开发了专用的数据聚合脚本，自动从威胁情报平台、WAF、NIDS、日志系统及业务报备系统中抓取数据，按统一格式整合为结构化记录。完成数据聚合后，即可形成供模型分析的标准化输入，例如：

IP: 113.XX.XX.24 |
接口: /api/v1/userInfo |
请求次数: 800次/分钟 |
请求时长: 持续2小时 |
威胁情报: 标记为“低危恶意IP”，3个月前有撞库记录，近30天无异常行为 |
WAF记录: 触发“SQL注入疑似规则”2次（请求参数含“or 1=1”“limit 1000”），未触发拦截 |
NIDS告警: 无攻击告警，连接特征为“TCP短连接，每3秒建立1次，最大并发8个” |
历史频率: 近7天平均访问频率8次/分钟，今日10点突然暴涨 |
业务报备: 无该IP的报备记录 |
所属网段: XXX网段（合作方常用网段）

完成数据准备后，提示词的设计成为决定模型效能的核心环节。高质量的提示词需为模型提供清晰的推理框架，确保输出结果兼具准确性与实用性。

3.2 提示词编写

提示词很重要，需要反复优化，不断调整**“角色身份”和“思考步骤”**。

提示词模板：

角色：你是拥有5年安全运营经验的工程师，熟悉高频IP排查场景，能结合业务实际判断风险（如业务高峰期可能有合作方批量调接口需求）。

任务：根据以下JSON格式的访问记录，按优先级分析该IP的风险，最终判断其为【正常】【恶意】【待确认】，并必须用一句话说明核心判断依据。

分析步骤（按优先级从高到低）：
1. 业务报备：是否有业务侧或合作方的报备记录？有则优先判为正常，无则继续。
2. 威胁情报：是否被标记为"高危恶意IP""拖库IP"？是则优先判为恶意，低危则继续。
3. WAF/NIDS记录：是否触发明确攻击规则（如SQL注入、XSS）？是则判为恶意，疑似则继续。
4. 频率与并发：当前频率是否比历史正常频率暴涨10倍以上？并发数是否超过10个？是则增加可疑度，否则降低。
5. 网段特征：是否属于合作方常用网段（如阿里云、腾讯云特定网段）？是则降低可疑度，否则增加。

访问记录：{"IP":"113.XX.XX.24","接口":"/api/v1/userInfo","请求次数":"800次/分钟","请求时长":"2小时","威胁情报":"低危恶意IP，3个月前有撞库记录，近30天无异常","WAF记录":"触发SQL注入疑似规则2次，未拦截","NIDS告警":"无攻击告警，并发8个","历史频率":"平日8次/分钟，今日10点暴涨","业务报备":"无","所属网段":"阿里云华东网段"}

输出格式：判断结果：【XXX】；判断依据：XXX

规定大模型的输出，可以方便后续的系统自动化处理。

3.3 白名单基线

完成提示词体系搭建后，我们引入白名单机制减少无效分析。将已知的合作方IP、CDN节点IP、内部测试IP及服务器集群IP等可信资产整理录入系统，模型在分析前会先执行白名单匹配——若IP在白名单内，直接判定为正常并跳过后续分析流程。

比如我们合作的数据分析公司固定用“120.XX.XX.0/24”这个网段，我们就把整个网段加入白名单，大模型看到这个网段的IP，哪怕请求频率到1000次/分钟，也会直接标为“正常：合作方批量调接口”，工程师根本不用管。这一步直接让大模型的“待确认”数量减少了40%，大大减轻了后续复核压力。

为适配临时业务需求，我们同步构建了动态白名单机制：业务侧可通过系统提交”IP+有效期+接口范围”的临时报备信息，自动加入白名单并在过期后移除，既满足了业务灵活性，又避免了静态白名单可能导致的安全漏洞。

3.4 重点筛选

大模型虽然比人分析的快，不过和正则或者规则比还是要慢很多，而且费用也比较高，所以要考虑分析效率，我们做了一个可疑评分模型，大致是按”威胁情报（30分）+WAF记录（25分）+频率暴涨（25分）+ NIDS（20分）”对异常IP进行量化排序。完成排序后，每天把TOP2000的记录提给大模型分析，把前2000条高可疑记录可覆盖95%以上的真实威胁，拖库、撞库等高危攻击因”频率极高、攻击特征明确”往往排名靠前；而低可疑IP多为业务临时波动，即使暂不处理也不会引发重大安全事件。

3.5 AI协同优化

模型输出初步结果后，安全运营工程师的主要是复核：一是”恶意”标签IP，需确认攻击证据链完整性；二是”待确认”标签IP，需联动业务侧补全信息；三是”正常”标签但评分接近阈值的IP，需抽样复核避免误判。完成复核后，将结果反馈至模型优化体系，形成闭环。

这里有个例子，有个IP被大模型标为【恶意】，依据是“频率暴涨10倍，触发SQL注入规则”。工程师复核时发现，这个IP的请求虽然带“select”，但都是“select username from user where userid=XXX”这种符合业务逻辑的查询，而且是从公司内网发起的——进一步排查才知道，是开发在测试新功能，忘了切换测试IP。工程师把“内网IP+符合业务逻辑的SQL语句=正常请求”这个判断反馈给大模型，我们把这个案例加入bad case，后续大模型再遇到类似情况，就会自动降低可疑度。

每周迭代机制：将工程师的复核结果（包括AI误判原因、漏判细节）整理bad case，调整提示词（比如补充”内网IP需结合业务场景判断”的规则），模型准确率从初始的75%逐步提升至90%以上。

四、效果对比

目前经过半年的试运行之后，我们以业务高峰期的IP排查工作为样本进行效果量化，数据显示新旧模式存在显著差异：

4.1 准确率对比

之前人工模式准确率依赖个人经验和是否疲惫，比如资深工程师结合业务背景判断一开始准确率可达99%以上，但连续看了几天都是误报之后，就可能稍微一看就直接点了误报，这样就可能会漏掉真正的告警；还有新人可能缺乏经验，把”特殊参数的正常请求”误判为攻击，或漏过伪装的恶意请求。

现在大模型辅助判断，准确率稳定在90%左右，而且不会受“疲劳、经验不足”的影响——不管是凌晨排查还是新人使用，判断标准都一样；另外召回率高,我统计了近半年的数据，所有真实的拖库、撞库攻击，都被大模型标为【恶意】或【待确认】，没有出现过漏报的情况；而误判的大多是“临时未报备的正常请求”，不会造成安全风险。