191篇→1页研判:开源情报AI知识库搭建实战

admin 2026-04-29 05:34:15 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本文以关键矿产供应链为案例,详细介绍了基于Obsidian和AI搭建开源情报知识库的实战方法。通过7层目录结构实现信息从原始资料到核心研判的流动,系统已产出资源民族主义范式转移、金属合金化瓶颈等结构化发现,并提供了具体的搭建步骤与工具组合。 综合评分: 87 文章分类: 威胁情报,安全建设,安全工具


cover_image

191 篇 → 1 页研判:开源情报 AI 知识库搭建实战

原创

罗城OSINT 罗城OSINT

百灵猫开源情报分析师

2026年4月28日 15:03 四川

在小说阅读器读本章

去阅读

受 Andrej Karpathy 启发,我们用 Obsidian + AI 搭建了一套结构化知识系统(LLM Wiki),以关键矿产供应链为真实案例运行至今。

以下先用这套系统实际挖出的东西说话,再拆解架构本身。


一、看看这套架构挖出了什么

在介绍任何方法论之前,先展示结果。

过去几个月,我们用这套架构追踪美西方“去中国化”关键矿产供应链。191 篇来源 → 23 个项目追踪 → 47 个实体 → 1 页核心研判。以下是一些靠“人肉阅读+记忆”很难发现的模式——它们是从结构化的信息网络中自然浮现出来的:

图1

发现 1:资源民族主义不是单一事件,是系统性范式转移

2026 年第一季度,以下事件密集发生:

  • 美国:Project Vault 战略储备 ~$120 亿
  • 澳大利亚:立法建立储备,拨款 A$12 亿
  • 韩国:$1.72 亿关键矿产储备基金
  • 欧盟:RESourceEU 战略储备框架
  • 越南:禁止稀土原矿出口,强制外资建加工设施
  • 巴西:政党向最高法院申请阻止美国公司收购本土稀土矿

放在单篇新闻里,每个都是孤立事件。放在 wiki 的 cross-link 网络中,模式一目了然:全球主要经济体正在从“市场供需驱动”同步转向“国家储备驱动”。这不是某个国家的策略调整,而是国际秩序的范式转移。

发现 2:竞争者有一个“看不见的瓶颈”

23 个追踪项目按供应链环节分类后,发现一个惊人的分布不均:

| 环节 | 项目数 | 占比 | | — | — | — | | 采矿 | 4 | 17% | | 分离加工 | 10 | 44% | | 金属合金化 | 1 | 4% | | 磁体制造 | 4 | 17% | | 回收 | 4 | 17% |

图2

金属合金化——从分离后的氧化物转化为磁体可用的金属锭——只有 1 个项目覆盖。这是西方非华供应链中最隐蔽的断裂点:有分离厂、有磁体工厂,但中间缺了把“粉末”变成“金属”的关键一步。

这个判断不可能来自任何单一文章。它是汇总、分类、对比后的结构涌现。

发现 3:价格已在“脱钩”——定价权侵蚀的先行指标

中国内外市场正在形成两套定价体系:

  • 镓: 中国内 ~2,500/kg(8 倍价差)
  • 重稀土: 中国内价格持续低于外部市场

价差本身就是出口管制效果的证明。但更重要的信号是:竞争者对“中国价格”的接受度正在下降。即使我方有成本优势,如果对方宁愿付溢价也要建替代供应链,定价权就在被侵蚀。

这是跟踪 191 篇来源、持续比对价格数据后浮现的趋势判断。

发现 4:多国供应链网络的可视化

跨 47 个实体节点之间的链接关系,构成了一幅清晰的全球供应链博弈地图:

1

2

3

4

5

6

7

8

9

10

11

12

13

USA ──→ FORGE / Project Vault (多边框架)
  ├──→ Energy Fuels → 稀土扩产
  ├──→ USA Rare Earth → $28亿收购巴西 Serra Verde
  │                       ↓
  │                 巴西政党申请最高法院阻止收购
  └──→ Critical Metals Corp → 格陵兰 Tanbreez + 沙特 $1.5B JV

Japan ──→ Sojitz → Lynas → 重稀土分离
  ├──→ 信越化学/大金/日立 → 磁体回收
  └──→ France → Caremag → 欧亚三边合作

Australia ──→ Lynas (中游分离) + Iluka (Eneabba 精炼厂)
UK → Pensana → Longonjo (安哥拉稀土)

这不是手工绘制的——Obsidian Graph 视图自动生成。每个节点是一页笔记,每条边是一个 [[wikilink]]。链接即逻辑。

发现 5:“纸面实力”与“实际能力”之间的鸿沟

Wiki 内部有一个反复出现的数字:美国 12+ 联邦机构已授权超 $7000 亿用于关键矿产供应链建设,但实际部署不足 15%,联邦许可审批平均需 29 年

这个数字在多个来源中被交叉验证,最终成为核心结构性判断之一。它的意义在于:竞争者的政策声明与实际交付能力之间存在巨大落差——而 wiki 的结构能让这种落差在每次新增来源时被自动关联和提醒。


以上只是当前运行状态的快照。新来源持续流入,新的模式会继续浮现。这套架构的价值不在于“存储”,而在于让模式和关联从信息中自然生长出来

下面是这套系统是怎么搭建的。


二、Karpathy 的 LLM Wiki:核心逻辑

2026 年 4 月,Andrej Karpathy 提出 LLM Wiki 概念,两天内获得 1600 万+ 浏览。

核心逻辑:

1

2

传统笔记:写给"人"看的 → 依赖人的记忆和检索
LLM Wiki:写给"人 + AI"看的 → AI 能理解结构,协助维护

实现前提:笔记结构足够规范——清晰的分类、统一的前置元数据、可交叉引用的链接体系。

我们基于这个思路,做了一个可运行的实例。


三、架构设计:7 层目录结构

知识库分为 7 层,每层有明确的职责边界:

图3

各层职责

| 层级 | 内容 | 维护方式 | AI 参与度 | | — | — | — | — | | 30-来源 | 每篇原始资料的 AI 摘要 | AI 生成,人工审核 | 高 | | 20-实体 | 国家/企业档案 | 人工维护 | 低 | | 15-项目 | 具体项目追踪 | 人工维护 | 低 | | 13-时间线 | 关键事件时间序列 | 自动汇聚(Dataview) | 无 | | 12-证据 | 可引用的事实条目 | 人工提取 | 中 | | 10-主题 | 综合研判 | 人工撰写 | 低 | | 00-首页 | 目录 + 数据统计 | 自动更新 | 无 |

信息流动方向

1

2

3

4

5

6

7

8

9

10

11

12

13

原始材料(网页/PDF/报告/新闻)
        │
        ▼  AI 摘要 + 结构化
30-来源(每篇一页,含关键事实)
        │
        ▼  人工提取核心信息
20-实体 · 15-项目 · 12-证据 · 13-时间线
        │
        ▼  综合判断
10-主题(威胁评估)
        │
        ▼  汇总呈现
00-首页(状态仪表盘)

AI 做基层处理,人做顶层判断。


四、当前运行数据

截至 2026 年 4 月 28 日:

| 指标 | 数值 | | — | — | | 来源页(AI 摘要) | 191 篇 | | 追踪项目 | 23 个 | | 实体(国家+企业) | 47 个 | | 证据条目 | 24 条 | | 来源时间跨度 | 2025.01 ~ 2026.04 | | 总 Markdown 文件数 | 290 | | 总大小 | < 2 MB | | 断裂链接数 | 0 |

290 个纯文本文件总共不到 2 MB——这套架构在千页规模下仍然轻量。链接近零断裂靠的是自动化 lint 检查,每次更新后自动跑一遍。


五、搭建步骤

Step 1:安装工具

  • 下载 Obsidian(免费)
  • 准备 AI 模型访问(Claude、ChatGPT、本地 Ollama 均可)

Step 2:建立目录结构

在 Obsidian 库中创建以下文件夹:

1

2

3

4

5

6

7

8

your-vault/
├── 00-首页/
├── 10-主题/
├── 12-证据/
├── 13-时间线/
├── 15-项目/
├── 20-实体/
└── 30-来源/

Step 3:从 30-来源 开始填充

找一篇研究领域的关键文章,让 AI 生成结构化摘要,包含:

  • 核心摘要
  • 关键事实(可引用的数据点)
  • 涉及的实体(公司、国家)
  • 时间节点
  • 研究价值评级

Step 4:建立上层节点

根据摘要中提取的实体和项目:

  • 20-实体/ → 创建公司和国家的独立档案页
  • 15-项目/ → 创建具体项目追踪页(含状态、威胁等级、里程碑)
  • 12-证据/ → 记录可交叉验证的关键数据
  • 13-时间线/ → 录入重要事件时间点

Step 5:撰写核心研判

在 10-主题/ 中记录当前分析结论。重点是判断而非罗列:

  • 全局态势定位
  • 主要威胁排序
  • 关键瓶颈识别
  • 下一步关注重点

Step 6:搭建首页仪表盘

在 00-首页/ 中创建索引页,链接到各层核心页面。可用 Dataview 插件实现数据自动汇总。

Step 7:建立维护机制

| 机制 | 作用 | | — | — | | 每日/每周固定时间更新 | 保持信息时效性 | | Lint 检查 | 确保链接不断裂、元数据一致 | | Git 自动备份 | 版本管理 + 灾难恢复 |


六、架构优劣势评估

优势

  • 信息不丢失: 每篇材料被 AI 摘要为一页,可检索、可引用
  • 全局可视化: 191 篇来源 → 23 个项目 + 47 个实体 + 1 页核心研判,层次清晰
  • 链接即逻辑: 从来源页可顺链找到关联项目、实体、判断
  • 模式自然涌现: 资源民族主义浪潮、金属合金化瓶颈、价格脱钩信号——这些不是预设的研究问题,而是结构化信息网络的副产物
  • AI 辅助维护: 摘要自动化、检索语义化
  • 长期可靠: lint + git 确保数据完整性

劣势

  • 有学习成本:需掌握 Obsidian 基本操作 + Markdown 语法(约 30 分钟)
  • 需要 AI 接口:自动摘要依赖大模型 API(我们用的是 Claudian + DeepSeek V4,性价比极高,可本地部署替代)
  • 不适合碎片记录:日记、待办清单等场景下架构过重
  • 需要持续投入:不自维护,每周需固定时间更新

适用场景

✅ 研究人员、分析师

 ✅ 长期追踪特定领域

 ✅ 需要从大量信息中提炼判断

 ✅ 想实践“AI + 知识管理”

❌ 随意记笔记

 ❌ 不愿学习工具

 ❌ 仅需 TODO 管理


七、常见问题

与 Notion 的区别

Notion 面向团队协作和项目管理。7 层架构面向长期领域追踪——结构化程度更高,更适合研究型场景。

是否需要编程能力

不需要。Obsidian 为图形界面操作,AI 摘要通过对话界面完成。Lint 和 Git 备份可一键运行。

是否限定了领域

不限。架构与领域无关,可适用于:

  • 新能源技术趋势
  • 地缘政治分析
  • 医药研发追踪
  • 竞品情报
  • 行业研究报告管理

结构相同,替换内容即可。

用的是什么 AI 模型?

我们用的是 Claudian + DeepSeek V4

DeepSeek V4 是最近才发布的新一代大模型,性能对标国外大模型,但 API 价格约为后者的 1/10,是目前市场上性价比最高的选择之一。Claudian 是我们基于 Obsidian 深度定制的 AI 助手,负责完成三件事:

  1. 自动摘要: 将原始文章/PDF 压缩为结构化来源页
  2. 信息提取: 从摘要中抽取出实体、时间线、关键数据
  3. 链接维护: 确保知识库的双向链接不断裂

这套组合使一篇材料的处理时间从 20 分钟(纯手工)缩短到 2 分钟(AI 生成 + 人工确认)。

数据安全

  • 公开信息 → DeepSeek V4 云端 API(性价比高)
  • 敏感信息 → 本地模型如 Ollama(不出本机)

扩展性

纯文本文件,290 个文件不到 2 MB。Obsidian 有缓存机制,千页规模仍然流畅。Git 版本管理确保历史可追溯。


八、核心结论

这篇指南的核心信息:

这套架构最有说服力的论据不是方法论本身,而是它已经产出的东西。 资源民族主义浪潮、金属合金化瓶颈、价格脱钩信号——这些判断来自结构化信息网络的副产物,而非预设的研究议程。

Karpathy 的 LLM Wiki 改变了信息处理的链路:

图4

AI 的角色是让“信息→结构”这一步从手工变为半自动化,使人能将资源集中在需要人类判断的环节。

如果你有类似的研究需求——无论是哪个领域——架构可以直接复用。需要讨论具体搭建问题时,欢迎交流。


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:百灵猫开源情报分析师 罗城OSINT 罗城OSINT《191 篇 → 1 页研判:开源情报 AI 知识库搭建实战》

评论:0   参与:  0