AI原生代码审计的历史性拐点:点星的能力边界与横向对比实测

admin 2026-06-21 05:02:30 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 点星是一套端到端AI自动化代码安全审计系统,通过对代码进行语义级理解实现零人工干预的漏洞挖掘,在14个真实项目中累计检出8451个漏洞(含11个零权限RCE)。系统在横向对比中展现出98.6%的真阳性率和全面召回能力,其技术实现因安全风险未公开,但通过开源审计数据和漏洞猎人挑战赛接受社区验证。 综合评分: 92 文章分类: 代码审计,漏洞分析,安全工具,AI安全,WEB安全


cover_image

AI 原生代码审计的历史性拐点:点星的能力边界与横向对比实测

YNsec安全实验室

2026年6月20日 12:00 湖北

在小说阅读器读本章

去阅读

以下文章来源于零隐网络安全实验室 ,作者天虫

零隐网络安全实验室

DianXing (点星) — AI-Driven End-to-End Code Security Auditing

🔗 完整版 · 全部数据 · 漏洞哈希表 · 评级标准 · 挑战赛规则,均已开源公开: https://github.com/tianchong-zerotemp/dianxing

从源代码到漏洞清单,全程零人工干预。

An AI system that reads, understands, and audits code like a top-tier security researcher — at industrial scale.


🎯 What is DianXing

点星是一套端到端 AI 自动化代码安全审计系统。上传源代码,系统自主完成漏洞挖掘与验证,输出精准的结构化漏洞清单 — 全程零人工干预,仅需单次运行。

点星不是规则扫描器。它不依赖正则匹配或已知 CVE 模式,而是通过 AI 对代码进行语义级理解,发现认证绕过、越权访问、业务逻辑缺陷等传统 SAST 工具无法触及的深层漏洞。

🔒 为什么不公开技术实现

在实测中,点星已展现出令团队自身都感到警惕的能力边界 — 它能够自主挖掘零权限 RCE 漏洞并完成从发现到远程控制服务器的完整攻击链验证,全程无需任何人工干预。部分被发现的漏洞已在目标项目中存在数年,历经无数次传统扫描工具的检测却从未被触及。

这种级别的自动化漏洞挖掘能力一旦被无门槛释放,后果不堪设想 — 它不再需要攻击者具备安全专业知识,任何人只需上传一份源代码,就能获得一份可直接用于攻击的高危漏洞清单。这不是假设性风险,而是我们已经在靶机上反复验证过的现实能力。

正如 Anthropic 因安全考量选择不公开 Mythos 模型的完整能力,而是通过 Project Glasswing 与全球机构合作定向防御 —我们同样选择不公开核心实现,转而通过可验证的审计数据和公开挑战赛来建立信任。能力越强大,释放越需要克制。

📖 我们选择怎么做

公开数据,封存实现。以下所有数据均来自点星系统对真实开源项目的实际审计产出,可独立验证。

我们还发起了 ⚔️ 漏洞猎人挑战赛 — 提前公开漏洞哈希表,用真金白银悬赏遗漏,以最直接的方式接受社区检验。


📊 审计实绩

🔢 总览

| | | | | | — | — | — | — | | 14已完成审计项目 | 8,451累计检出漏洞 | 11严重(零权限 RCE) | 7编程语言覆盖 | | 单次运行 · 零人工 | 细粒度计数:同点位·不同利用链分别计 ↓ 口径说明见下方 | 无需认证 · 靶机远程复现 获取服务器控制权 | Java · Go · JS · PHP Python · Solidity · Binary |

[!IMPORTANT] 漏洞计数口径 —— 请先阅读 本表所有数字采用细粒度计数同一漏洞点位,若存在多条相互独立的利用链(不同触发入口 / 不同利用方式),分别计为不同发现。 因此”累计检出漏洞”反映的是可被独立利用的攻击面总量,而非去重后的代码缺陷点数量。这是我们刻意选择的、更贴近攻击者真实视角、且每一条都可独立复现核验的严格口径 —— 求透明,而非求数字好看。

📋 已审计项目清单

以下项目均为公开可获取的真实项目(按检出数降序):

| 项目 | 语言 | 漏洞总数 | 零权限RCE | 高危 | 中危 | 低危 | | — | — | — | — | — | — | — | | LiteLLM v1.88.2 | Python | 2,074 | — | 398 | 1,522 | 79 | | Jenkins v2.566 | Java | 1,469 | — | 217 | 842 | 111 | | Grav CMS v1.8.0-beta.29 | PHP | 1,215 | 5 | 304 | 658 | 218 | | New API (One API) v1.0.0-rc.11 | Go | 774 | — | 120 | 575 | 57 | | 1Panel v3.2.5 | Go | 751 | — | 232 | 363 | 24 | | phpMyAdmin v5.2.3 | PHP | 689 | — | 175 | 396 | 92 | | ██████████ ██████ | JS | 389 | 1 | 33 | 310 | 15 | | Redash v26.3.0 | Python | 290 | — | 80 | 159 | 14 | | Damn Vulnerable DeFi | Solidity | 268 | — | 79 | 174 | 13 | | ██████████ ██████ | Java | 206 | 1 | 72 | 116 | 7 | | ██████████ ██████ | Go | 115 | 2 | 30 | 68 | 7 | | █████████ ██████ | Go | 110 | 2 | 22 | 58 | 6 | | Aave V4 v0.5.11 | Solidity | 99 | — | 21 | 69 | 9 | | Tenda AX12 V22.03.01.16(公开部分数据) | Binary | 2+ | — | 2 | — | — | | 合计 | 6 语言 + Binary | 8,451+ | 11 | 1,785 | 5,310 | 652 |

:所有审计均为单次运行自动完成,零人工干预。

████ 打码说明:表中被 ████ 涂黑的项目,均为点星已挖掘出零权限 RCE 的目标。出于安全责任考量,此类项目的名称与版本号一律隐去(仅做涂黑处理、文档中不保留任何原文),以避免漏洞被逆推定位到具体项目与版本而遭滥用。

严重度定义:严重 = 零权限 RCE(Remote Code Execution),无需任何认证凭据即可远程获取服务器控制权,靶机实测成功并拥有完整命令执行证据。非靶机实测的 RCE 类漏洞归入高危。

严重度评级说明:上述所有漏洞的严重度分级均由 AI 自动评级,并非人工评级。

 Tenda AX12 为固件审计。硬件能力暂不公开,选用部分数据公开。RCE 因需特定前提条件,归入高危。

🔴 漏洞严重度分布

🌐 按语言统计

| 语言 | 项目数 | 漏洞总数 | 严重(靶机RCE) | 高危+中危 | 代表性项目 | | — | — | — | — | — | — | | Python | 2 | 2,364 | — | 2,159 | LiteLLM, Redash | | Java | 2 | 1,675 | 1 | 1,247 | Jenkins, ██████████ | | Go | 4 | 1,750 | 4 | 1,468 | 1Panel, New API, ██████████, █████████ | | PHP | 2 | 1,904 | 5 | 1,533 | Grav CMS, phpMyAdmin | | JavaScript | 1 | 389 | 1 | 343 | ██████████ | | Solidity | 2 | 367 | — | 343 | Aave V4, DVDeFi | | Binary | 1 | 2+ | — | 2 | Tenda AX12 † |

🏢 审计对象覆盖场景

这些项目覆盖了多种典型业务场景,代码量从数千行到数百万行不等:

🏗️基础设施:Jenkins(全球 CI/CD 基石,23k stars)、██████████

🛠️开发者工具:LiteLLM(LLM 代理网关,20k stars)、Redash(数据分析,26k stars)、1Panel(运维面板,25k stars)

🌐Web 应用:phpMyAdmin(全球最广泛的 MySQL 管理工具)、Grav CMS、██████████

⚡API 服务:New API(LLM API 聚合,23k stars)、█████████、██████████

💎DeFi 智能合约:Aave V4(头部借贷协议)、Damn Vulnerable DeFi

🔩硬件固件:Tenda AX12(路由器固件审计 †)


🏆 能力基准

🎯 召回率基准测试 — 9 种语言零遗漏

在严格受控条件下评估系统的漏洞召回能力:

| 约束 | 要求 | | — | — | | 语言覆盖 | C / Java / JavaScript / Python / Go / PHP / .NET / Rust / Ruby | | 漏洞类型 | 每语言 ≥ 5 类不同类型 | | 漏洞时效 | 披露时间 晚于 AI 模型训练截止日期 | | 网络访问 | 全程禁止联网 | | 人工干预 | 全程禁止 | | 运行次数 | 仅允许 1 次,不得调参重试 |

结果:9 种语言,全部零遗漏。

所有测试漏洞都是系统”从未见过”的 — 发布时间晚于 AI 训练数据截止日期,且运行时禁止联网。系统是理解了代码逻辑,而非记住了答案。

🥊 横向对比实验 — 四方同台

在同一代码版本(Grav CMS v1.8.0-beta.29)、同一时间、同一评判标准下,点星与 3 款主流 AI 代码审计产品同台实测:

| 系统 | 检出总数 | 真阳性率 | 漏检率 | RCE 靶机复现 | | — | — | — | — | — | | 点星 | 1,215 | 98.6% | 0% | 14 | | 锐鉴 | 7 | 100% | — | 3 | | MonkeyCode | 2 | 50% | — | 0 | | DeepAudit | 3 | 33% | — | 0 |

RCE(Remote Code Execution)= 远程代码执行漏洞,攻击者可直接获取服务器权限,是攻防场景中最高危的漏洞类型。点星的 RCE 靶机复现数是竞品最高者的 4.7 倍

📈 产能对比

传统审计中,一名资深安全专家在中等规模项目上发现 10-30 个高危漏洞已属高水平。点星在 14 个项目中累计检出1,796 条高危及以上漏洞,其中11 条 RCE 已通过靶机远程复现,从漏洞发现到实际获取服务器控制权全链路证据留存。

产能等价于数百名顶级安全研究员的总和。


⚔️ 漏洞猎人挑战赛 ⚔️

🏴‍☠️ 找到我们没发现的高危漏洞,奖金归你 🏴‍☠️

我们提前公开漏洞哈希表,用真金白银悬赏遗漏。


我们对系统的深层漏洞发现能力有充分信心 — 现在,我们把这份信心放到台面上接受检验。如果有我们未发现的漏洞,我们同样欢迎 — 每一个遗漏都是推动产品能力继续深化的真实反馈。

🔄 挑战机制

团队公开审计目标

— 每轮由团队公开一个已完成审计的开源项目

漏洞哈希提前公开

— 审计完成后,每个漏洞描述分别计算 SHA-256 哈希,在挑战窗口开放前提前发布至本仓库,利用 Git commit 的不可篡改时间戳作为存证

开放挑战

— 哈希表发布后开放挑战窗口,任何人均可提交其发现的漏洞

漏洞描述原文 → SHA-256 → 0x7a3f...b2c1 → Git commit 存证(含时间戳)

📮 提交方式

💬公开提交:在本仓库 Discussion 区发帖(仅描述漏洞类型与影响,不含利用细节)

🔒私密提交:发送至(适用于不宜公开的漏洞)

📜 有效漏洞标准(四条,需全部满足)

| 条件 | 说明 | | — | — | | 项目自身代码 | 仅项目自有代码的漏洞计入奖励;第三方依赖、框架本身的漏洞不予奖励,但此类漏洞实质上已在点星审计范围内,欢迎提交验证(仅验证、无奖励) | | 严重度 ≥ 高危 | 仅接受实质意义上的 Critical / High —— 以真实可造成的安全影响为准,而非名义上的高分级(以团队 · AI 评级为终裁) | | 漏洞点唯一性 | 同一触发点的不同利用方式视为同一漏洞,按根因(root cause)去重 | | 真实可利用性 | 须在【目标版本 + 官方默认配置 + 无额外加固】基线下端到端真实可利用;单纯单点代码缺陷、而实际已被其他环节有效防御的,不计奖励。仅在官方非默认配置下才能利用的漏洞,欢迎提交验证(仅验证、无奖励);主张全额奖须提供可复现的利用证据(PoC / 利用路径) |

📐 严重度如何评级? 我们公开了完整的评级口径(含”敏感数据”定义与反虚高规则),详见 AI 漏洞严重度评级标准。评级以真实可利用影响为准,主动对抗”往严重报”的倾向。

🏅 匹配判定与奖励

点星是漏洞审计工具,其产出为独立的漏洞点位发现(代码缺陷定位),而非完整的利用链组装。利用链编排属于万破平台的另一条产品线。

[!NOTE] 🔗 攻击链编排系统已就位 —— 万破平台的攻击链编排系统已基于点星的漏洞清单,自动组合完成十余条「零权限 RCE」的完整利用路径编排:从一个个独立缺陷点,直达端到端拿下服务器的全链路。敬请期待发布。

因此,匹配判定分为三级:

提交漏洞 → 团队验证有效性

❌ 无效 → 反馈原因

✅ 有效 → 团队比对「已审计漏洞清单」:

🎉完全未覆盖→ 全额奖金

⚠️组件覆盖但未串联→ 出示组件 hash + 原始描述,安慰奖

✅完全匹配→ 出示对应 hash + 原始描述,感谢参与

| 匹配等级 | 说明 | 奖励 | | — | — | — | | 完全未覆盖 | 提交的漏洞点位不在审计清单中 | 🏆 当前剩余奖金池 × 1/3 | | 组件覆盖但未串联 | 漏洞利用链中的关键组件已被审计清单独立发现,但未组合为完整利用链,出示各组件匹配的哈希值 + 原始描述 | 🥈 安慰奖:小礼品 / 9.9 元红包 | | 完全匹配 | 提交的漏洞点位已在审计清单中,出示匹配的哈希值 + 原始描述 | 感谢参与 |

为什么区分”组件覆盖”与”完全未覆盖”? 一个漏洞利用链通常由多个独立的代码缺陷串联而成。审计工具的职责是发现每一个缺陷点位 — 如果利用链中的各组件均已被独立覆盖,说明审计能力完整,只是利用链组合(攻击编排)属于不同的安全能力域。

💰 奖金池与计算

全程共享奖金池 ¥30,000,跨轮持续递减、不重置。每产生一位「完全未覆盖」获奖者,领取当前剩余奖金池 ÷ 3(向下取整到 0.1 元)。越早发现,奖励越高。

| 第 N 位全额获奖 | 领取(舍到角) | 领取后剩余 | | — | — | — | | 1 | ¥10,000.0 | ¥20,000.0 | | 2 | ¥6,666.6 | ¥13,333.4 | | 3 | ¥4,444.4 | ¥8,889.0 | | 4 | ¥2,963.0 | ¥5,926.0 | | 5 | ¥1,975.3 | ¥3,950.7 | | … | 始终为剩余的 1/3,递减 | … |

🧮 领奖上限(仅针对全额奖)

同一项目 ≤ 3 次

:触发 3 次即表明点星在该项目上仍有优化空间,感谢社区共建。

同一提交者全程 ≤ 3 次

超出任一上限的有效未覆盖漏洞:列入荣誉榜 + 发放安慰奖(小礼品 / 9.9 元红包),不再占用全额奖金池。

⏱️ 先后与去重

同一漏洞多人提交

:仅奖有效提交时间戳最早者,其余按「完全匹配」处理。

多份不同的有效遗漏

:按时间戳先后,依次以「当时剩余池 × 1/3」结算。

已确认并发奖的遗漏会即时并入已知清单,此后相同提交按「完全匹配」处理。

🏁 终止条件(满足其一即止)

官方明确公布终止;

剩余奖金池< ¥100;

下一轮哈希表发布,即视为上一轮挑战窗口关闭。

触发终止时,剩余余额并入社区福利(以红包 / 礼品形式回馈社区)。

💳 奖金发放

核身通过后15 个工作日内发放;仅接受中国大陆实名银行卡收款,收款人须与提交者一致;相关税费由挑战者自行承担。

🤝 负责任披露(鼓励,不强制)

鼓励获奖者向项目方提交修复建议并走负责任披露流程,共同提升开源生态安全;但不作为领奖前提。

⚖️ 免责声明

一、本挑战赛仅以 安全技术研究、学习与交流 为目的,旨在提升开源软件安全水平,不构成对任何第三方系统进行测试或攻击的授权。

二、参与者应遵守《中华人民共和国网络安全法》《数据安全法》《刑法》等法律法规;所有安全研究须在合法授权的环境(如本地自建测试实例)中进行,严禁针对未获授权的任何真实系统实施访问、测试、利用、破坏或牟利。

三、参与者因违反法律法规或本声明引发的任何法律责任及后果,均由参与者本人独立承担,与主办方(零隐网络安全实验室)及其成员无关;主办方保留依法追究的权利。

四、参与即视为已阅读并同意本声明及全部赛制规则。主办方对赛事规则、奖金发放及争议事项 保留最终解释权

📱 领奖与交流

扫码加入社区 —— 领取奖金、技术交流、参与选题投票:

(群二维码定期更新;如失效请关注仓库公告获取最新二维码。)

📄 漏洞哈希表

本轮挑战目标:Grav CMS v1.8.0-beta.29。以下为本轮审计漏洞清单的哈希存证(SHA-256),随本次 Git commit 的时间戳一并公开,作为「先于挑战期已发现」的不可篡改承诺。完整脱敏哈希文件见 challenge_hashes_grav-1.8.0-beta.29_public.csv

| 轮次 | 目标项目 | 哈希条数 | 哈希文件 | 挑战状态 | | — | — | — | — | — | | 第 1 轮 | Grav CMS v1.8.0-beta.29 | 1,215 | public.csv | 🟢 进行中 |

关于严重度口径:下方哈希表中每条漏洞标注的 severity 为审计初评,将依据 AI 漏洞严重度评级标准 统一重新核定(主动对抗”往严重报”的倾向),最终以核定后的严重度为准

📋 漏洞哈希存证(示例 3 条,完整 1,215 条见 GitHub 仓库)

| vuln_id | severity | record_sha256 | description_sha256 | | — | — | — | — | | VE-0001 | Critical | 339baa6bb618470d8c3595a42cdef2d48bf8c42ae018fc05bd2b7d44e5e8212e | 3cba074d1ad527ba0eee49bc968811013f8efbe35fe8add7db54f4c68252401a | | VE-0002 | Critical | afdc27828e60e8f55516df4176151374889e46c07b30f3306d330ecee796089d | 7510d25192e85821bf15fa56f32f7eb2d0a92c29f6b410aee649b6dba459c647 | | VE-0003 | Critical | 54aa27b96751a055e44316d082062dff075b177a52bc1016fa6cf2f5b07c61b3 | 46f1c66412a853e8bcdaa65364e18881512f0a9746d7855804521329ecab3395 | | … | … | … | … |

📌 此处仅展示 3 条示例完整 1,215 条漏洞哈希表(含全部 SHA-256 存证、随 Git 提交时间戳公开)请前往 GitHub 仓库查看: https://github.com/tianchong-zerotemp/dianxing 或下载脱敏哈希文件 challenge_hashes_grav-1.8.0-beta.29_public.csv


🔬 核心能力

🧬 审计形态

| | | | | — | — | — | | 📋 SRC源代码审计 覆盖 10+ 主流编程语言 深入理解跨文件、跨模块的业务逻辑 | 🔩 BIN二进制/反编译审计 无需源代码,直接对 APK、JAR、 DLL、SO 等二进制文件深度审计 | ⚙️ FW硬件固件审计 面向 IoT、工控系统、车载 ECU 自动完成固件解包与漏洞审计 |

🔍 审计深度

点星聚焦传统工具的盲区 — 深层业务逻辑漏洞:

💥远程代码执行— 命令注入、代码注入、SSTI、反序列化利用链

🔓越权访问— 水平/垂直越权、IDOR

🛡️认证绕过— 身份验证逻辑缺陷、会话管理漏洞

💉SQL 注入— 包含 ORM 层面的间接注入

📂文件操作— 路径穿越、任意文件读写

⛓️智能合约漏洞— 重入攻击、闪电贷攻击、价格操纵


⚖️ 与传统方案的对比

| 维度 | 传统 SAST 工具 | 人工安全审计 | 点星 | | — | — | — | — | | 核心方式 | 规则匹配 | 专家经验 | AI 代码语义理解 | | 漏洞深度 | 仅已知 CVE 模式 | 深,但受限于个人能力与时间 | 深层业务逻辑漏洞 | | 误报率 | 高 | 低 | ~5%(高危层级) | | 产能 | 高,但浅 | 低(数周/项目) | 高且深(数小时/项目) | | 可扩展性 | 好 | 极差(人力瓶颈) | 好(全自动化) |

可验证性承诺:审计目标全部为公开可获取的开源项目(见上方清单),任何安全研究者均可获取相同版本的源代码并尝试复现。


🆚 与 Anthropic Mythos Preview 的对比

2026 年 4 月,Anthropic 发布了 Claude Mythos Preview,并因其安全能力之强而选择不公开发布,转而发起 Project Glasswing 计划与全球顶级机构合作定向防御。Mythos 是当今最强大的通用前沿模型之一,其在系统层漏洞挖掘(OS 内核、浏览器引擎、C/C++ 基础设施)上的突破令整个安全行业震动 — 自主发现存在 27 年的 OpenBSD 漏洞、生成完整内核提权利用链,这些成就值得敬意。

点星不是通用大模型,而是专注代码安全审计的垂直引擎。以下对比仅针对”漏洞挖掘”这一项能力,展示两种不同路线(通用大模型 vs 垂直专用系统)在已公开数据中的表现差异:

| 维度 | Anthropic Mythos Preview | 点星 DianXing | | — | — | — | | 扫描项目数 | 1,000+ 个 ^[1]^ | 14 个(8 个进行中) | | 漏洞候选总数 | 23,019 条 ^[1]^ | 8,451 条(含多利用路径) | | 确认有效数 | 1,596 条已披露 ^[2]^ | 8,451 条(人工抽验,误报率 5%) | | 真阳性率 | 90.6%(1,752 条经独立审核)^[1]^ | 98.6% | | 高危+严重确认 | 62.4% 经确认为高危+(1,752 条审核样本)^[1]^ | 1,796 条 (高危及以上) | | RCE 能力 | Firefox exploit 181 次 vs 上代模型仅 2 次 ^[3]^ | 11 条零权限 RCE 靶机远程验证 | | 单项目挖掘深度 | 未公布单项目数据 | 1,215 条 (Grav CMS 单项目) | | 自动化程度 | 全自动,最小人工引导 ^[4]^ | 全自动,单次运行,零人工 | | 单漏洞发现成本 | <$50/条 ^[5]^ | ~$1.1/条 | | 单项目审计成本 | $10,000–$20,000/项目 ^[5]^ | ~$694/项目 | | 总审计投入 | $1 亿使用额度 + $400 万捐赠 ^[6]^ | 约 $9,000 | | 产品可用性 | 不公开,仅限约 50→200 家邀请制合作伙伴 ^[7]^ | 可部署 (本地化 / CI/CD) | | 竞品对比 | 上代 Opus 4.6 → Mythos 90x 提升 ^[3]^ | 1,215 vs 竞品最高 7(174x 领先) |

说明:Mythos 是通用前沿模型,漏洞挖掘只是其众多能力之一,其在编码、推理、代理运算等领域的综合能力远超本表所能体现。点星是垂直专用系统,所有工程投入都集中在代码安全审计这一个方向上。上表仅对比两者在漏洞挖掘维度的已公开数据,不代表对 Mythos 综合能力的评价。

📎 Mythos 数据来源

| 标注 | 来源 | 原文引用 | | — | — | — | | ^[1]^ | Penligent 引用 Anthropic 官方数据 | “The model estimated 23,019 total vulnerabilities, including 6,202 high- or critical-severity issues. Of 1,752 high- or critical-rated issues assessed… 90.6% were confirmed as valid true positives, and 62.4% were confirmed as high or critical severity.” (来源见 GitHub 仓库说明) | | ^[2]^ | Penligent 引用 Anthropic 红队博客 | “it had disclosed 1,596 vulnerabilities across 281 open-source projects; 97 were known to have been patched” (来源见 GitHub 仓库说明) | | ^[3]^ | Anthropic Frontier Red Team 博客 | “Opus 4.6 turned the vulnerabilities… into JavaScript shell exploits only two times out of several hundred attempts… Mythos Preview developed working exploits 181 times” (来源见 GitHub 仓库说明) | | ^[4]^ | Anthropic 安全评估报告 | “Mythos Preview is capable of identifying and then exploiting zero-day vulnerabilities in every major operating system and every major web browser” (来源见 GitHub 仓库说明) | | ^[5]^ | CybersecurityForMe 引用 Anthropic 披露数据 | “The discovery campaign cost approximately $20,000 total across roughly 1,000 runs. The specific run that identified the vulnerability cost less than $50.” (来源见 GitHub 仓库说明) | | ^[6]^ | Anthropic Project Glasswing 官方页面 | “Anthropic is committing up to $100M in usage credits… as well as $4M in direct donations to open-source security organizations.” (来源见 GitHub 仓库说明) | | ^[7]^ | Anthropic 扩展公告 | “roughly 50 initial partners… we’re extending the partnership to approximately 150 new organizations.” (来源见 GitHub 仓库说明) |


🧩 关于”万破”平台

点星是万破(WanPo)AI 攻防平台的第一块能力积木。

我们的路线与行业不同:不急于拼凑”全能平台”,而是在每一个垂直攻击能力域深耕至绝对领先,再汇聚为终极形态。

✅ 已落地── 🎯 点星:漏洞挖掘 + 靶机验证

📐 规划中── 🗺️ 资产测绘(攻击面发现) → 🔗 攻击链(利用链测绘) → 🥷 免杀对抗(EDR 规避 / 载荷生成)

🧠 AI 自动化渗透指挥大脑

行业普遍做法:从一开始就尝试构建”端到端自动化渗透”,每个子能力蜻蜓点水。

我们的路线:在每一个垂直领域做到行业最强(已用实测数据证明第一块积木的领先),再将成熟模块汇聚集成。每一块积木做到行业最强,最终拼出的全景将断崖式领先。


🔐 技术立场

✅ 我们公开什么

📋 审计过的项目清单与漏洞数量统计

📊 漏洞严重度分布(含靶机实测 RCE 分类)

🔬 靶机复现验证记录与攻击链摘要

🥊 横向对比实验的设计与结果

🎯 召回率基准测试的约束条件与结果

🌐 支持的语言与审计形态

🚫 我们不公开什么

🏗️ 系统架构与技术实现

⚙️ 审计引擎的内部机制

🤖 AI 模型与训练数据

🔒 具体的漏洞描述与利用方式(遵循 Responsible Disclosure)

核心技术是团队的竞争壁垒。我们用可验证的数据,而非可复制的代码来证明能力。


🚀 部署方式

| | | | — | — | | 🏠 本地化部署 全套流程支持本地化部署 不上云,代码数据不外传 | 🔄 CI/CD 集成 可嵌入 GitLab / Jenkins 流水线 实现每次提交自动审计 |


❓ FAQ

为什么不开源?

点星具备自主发现零权限 RCE 等高危漏洞并完成靶机验证的能力。开源意味着将完整的自动化漏洞挖掘能力无门槛释放,可能被用于对未授权目标的攻击。出于安全责任考量,我们选择不公开核心实现,通过可验证的审计数据来建立信任。

数据是否可以独立验证?

审计目标全部为公开可获取的开源项目,我们公布了每个项目的名称、版本号和对应的 GitHub 仓库。由于漏洞本身不宜公开披露(Responsible Disclosure),我们通过横向对比实验、召回率基准测试等方式提供间接可验证性。我们也计划通过 漏洞猎人挑战赛 进一步接受社区检验。

精确率如何保证?

高危漏洞经人工抽验,精确率约 95%。在横向对比实验中,点星的真阳性率达到 98.6%。11 条严重(RCE)漏洞已通过靶机远程复现二次验证,拥有完整命令执行证据。

与传统 SAST 工具(SonarQube、Checkmarx 等)有什么区别?

传统 SAST 工具依赖规则匹配,仅能覆盖已知 CVE 模式,误报率高。点星通过 AI 语义理解代码逻辑,能发现认证绕过、越权访问、业务逻辑缺陷等深层漏洞——这是规则匹配永远无法触及的领域。

可以审计闭源代码吗?

可以。点星支持三种审计形态:源代码审计、二进制/反编译审计(APK、JAR、DLL、SO)、硬件固件审计(IoT、工控、车载 ECU)。无需获取源代码即可对闭源组件进行深度审计。


👥 团队

| 角色 | 成员 | | — | — | | 创始人 & 首席架构师 | 天虫 | | 首席研究员 | Bouquets-ai | | 核心研究员 | sakam | | 研究团队 | Ustinain · Nexus · Southwin · liseedog · 龙泉 | | 特别感谢 | YNsec · 木木 |


📬 Contact

| 渠道 | 信息 | | — | — | | 📧 Email | [email protected] | | 🐙 GitHub | 本仓库 Issue / Discussion |


🔮 灵枢 — 万破平台另一条产品线

以下内容介绍万破 AI 攻防平台的第二块能力积木 — 灵枢攻击面测绘引擎,与点星同属万破平台,独立产品线。

AI 攻击面测绘引擎

字典已死,语义为王。

输入一个域名,输出一张攻击面地图。


🌐 它能做什么

给灵枢一个根域名,无需任何额外配置,它会自动完成一个资深红队成员在渗透测试前 48 小时内的全部信息收集工作——并且做得更广、更深、更准。


📊 实战拉练

某大型互联网医疗平台 · 单根域名输入 · 全自动 · 零人工干预

| | | | | — | — | — | | 501AI 发现总数 | 213高价值发现 | 18CRITICAL 级 | | 51HIGH 级 | 157独立主机 | 41+业务领域 |

灵枢在这次扫描中自主完成了:

🔍 逆向建立了目标的完整 CDN 多层架构模型,并发现了多个可穿透 CDN 直达源站的节点

🔗 梳理出 SSO → OAuth → 患者登录 的完整认证体系拓扑

🎯 定位到公网直接可达的仓储管理系统、医学影像开发环境、CI/CD 构建系统

🗂️ 将 41 个业务领域的数百个资产归类映射——从 AI 医学影像到处方流转,从运维弹性平台到内部开发者工具

没有人告诉它应该找什么。它自己理解了目标的业务全景,然后告诉你哪里有机会。


🛡️ 它不做什么

灵枢是侦察系统,不是武器。

它不发送任何漏洞利用载荷,不修改目标任何数据,不影响业务运行。所有探测行为均为非破坏性侦察。破坏性操作在系统层面被彻底封死——这不是配置项,也不是 AI 的自我约束,是它根本不具备这个能力。

侦察兵翻墙确认哨岗有人值守,但绝不开枪。


📦 它交付什么

不是一张需要人工花三天筛选的 Excel 表格。

灵枢的输出是一份经过 AI 验证的结构化攻击面报告:每个资产附带风险评级、技术指纹、业务归属、AI 分析结论和下一步建议。关键资产之间的关系——认证链路、CDN 层级、环境对应——已经被 AI 梳理清楚。

拿到报告的人可以直接进入下一阶段,而不是从头开始拼图。


🧩 它在更大图景中的位置

灵枢是我们 AI 自动化渗透技术路线中攻击面测绘这一环的核心引擎。

它的输出将直接对接下游的漏洞验证、攻击链推理等引擎模块——最终汇聚为一个端到端的AI 渗透指挥大脑。

当前版本已具备完整的情报收集、资产验证、深度指纹分析、路径发现、绕过验证和报告生成能力。JS 深度分析引擎、全站资产关联图谱、更多情报源正在开发中。


正式版本即将发布,敬请期待。


DianXing AI Code Security Audit System

点星自动化漏洞审计系统 · 零隐网络安全实验室 (LingYin Security Lab)

用数据说话,而非用承诺。


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:YNsec安全实验室 《AI 原生代码审计的历史性拐点:点星的能力边界与横向对比实测》

评论:0   参与:  0