2025-12-22 04:01:57 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 作者分享了2025年AINative在安全领域的实践经验，指出embedding在安全场景中的局限性，强调lessstructuremoreintelligence的设计理念。讨论了算力挑战、认知差异和产品差异化等难点，并介绍了公司实现的AInative越权平台等里程碑成果。作者认为AI安全产品应注重实际效果而非CTF表现，并表达了对实现AI黑客的期望。 综合评分： 86 文章分类： AI安全,安全工具,WEB安全,渗透测试,安全建设

cover_image

我的2025年ai native经验

原创

xsser

xsser的博客

2025年12月19日 18:50 浙江

2025年ai变化很大，尤其是gemini3.0以后出来，包括claude越来越强。

在这个实践过程中，我们也经历过部分的重构。

技术上来讲，我谈谈几个常见的误区

### embedding的使用

这个是我2024年在做ai自动化渗透的时候就发现的，甚至更早，因为embedding模型的第一性原理是基于token之间的距离，也就是相似度来实现判断的，他的本质问题是缺乏推理。核心痛点在于此，所以我们的产品在设计上一定是抛弃embedding的，因为有的时候2个词语虽然接近，但是结合场景，一定会出错，尤其是需要严谨判断的地方。比如渗透测试的时候。端口8080和8081在词语上可能很接近，但是这毕竟是2个端口啊！怎么可能用呢？

### langgraph、langchain、react agent、dsl等技术的差异

早期大部分人会用chain和graph来实现一些技术，但是那些生命周期已经结束了。这些某种程度上的dsl是一种哲学，即可以被形式化或者是确定性高的工具执行。这些确定性高的agent适合用于对结果容忍度低的，比如航天或者电力之类的行业的业务设计，因为不能出错。但是对于安全来说，只要目标没额外要求，一般是允许出错，不然如何fuzz？

最近出来了skill，他是动态的渐近式披露一些信息，其本质就是一种意图工程，前沿的意图工程主要围绕形式化的解决一些计算机领域的问题。也就是如何实现意图到最后被执行的这部分内容。但是颗粒度最后还是会回到prompt本身，核心就是如何让llm能懂你在说什么，而不是人。

整个agent设计不是越复杂越好

记住一点：less structure more intelligence

### Benchmark

所有的开发必须建立在TDD，实际场景下的反馈驱动实践。更核心的对标几个指标是否真正提高了，而不是是否能被ctf。效果是很重要的，ctf本身虽然能考验产品是否能在场景里实现一些基础功能，但是和现实却相差巨大。因为现实中需要绕过验证码，需要解决waf，产品按照ctf为目的设计了以后呢？都说模型训练需要数据，错误的场景设计的数据在sft的时候就会影响空间状态分布。相当于起了一个坏的开头。

还有在实际实践中遇到的一些难点

### 算力难点

国产的GPU在实际过程中还是遇到了很多算力的问题，从对标cuda的sdk到优化以及部署和采购，都是坑。比如32b最小的gpu显卡数量、硬件成本、并发效果以及结合产品的最大和最小的产品指标等。

我们的实践之下，基本上32b以下的模型就不用谈效果了，以及硬件成本低于25万的也不用谈效果，那些配置能跑的llm和草履虫的智商没什么区别。

### 认知难点

其实大部分客户对ai的能力和预期都是存在过度狂热的坑，所以往往产品不到预期就会难受。

这里不仅仅包括客户，还包括公司内部的自己人，也就是开发和安全工程师对ai的预期，有的时候我很难说服别人理解我的意思，本质就是因为信息带宽差异和上下文，学的多的人可以理解这些，但是不学的、长期不了解ai技术的只能通过类比、比喻之类的来迁移认知，往往这种沟通需要给对方补充相当大的上下文来对齐知识的理解，沟通成本巨大。内部不对齐认知，就会造成不必要的实践的探索成本的浪费。