2026-03-05 19:28:06 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 文档分析人工智能驱动的算法战争，指出AI通过深度强化学习制定非线性战术，推动马赛克战争模式转型。核心瓶颈在于人类认知偏差与后勤物理局限。建议重塑指挥官思维、强化后勤支持并警惕数据电子战挑战，为构建智能化国防提供战略启示。 综合评分： 88 文章分类： AI安全,威胁情报,安全建设

cover_image

基于人工智能的“算法大战”的机制与启示（9000字干货）

原创

所长007 所长007

蓝军开源情报

2026年3月5日 10:49 湖南

关注▲蓝军开源情报▲和10万+情报研究员，一起成长

【导读】

2026年2月26日，朝鲜日报刊登报告《基于人工智能的“算法大战”的机制与启示》。本研究深入分析人工智能技术驱动下的军事变革趋势。

随着美战争部引入政府专用大模型并推行“GenAI.mil”计划，AI正从辅助工具演变为具备自主决策能力的虚拟指挥官。深度学习与强化学习技术的融合使AI能实时处理数百万个参数。这种机制可识别人类难以察觉的非线性相关性，从而制定出超越人类直觉的战术。在这种被称为算法战争的模式中，传统线性作战计划将被实时数据响应取代，战场组织结构将向去中心化的马赛克战争转型。

报告强调，虽然AI在发现最优解和全局优化方面表现出非凡创造力，但人类执行端的认知偏差以及后勤保障的物理局限仍是制约算法效能的关键瓶颈。面对未来智能化的地缘竞争，人类指挥官需完成从依赖经验向信任数据的逻辑再培训，同时需警惕非对称作战与数据电子战带来的新挑战。

本报告旨在揭示算法迷雾下的制胜机理。为构建智能化国防体系提供战略启示。

本文摘录4000字，加入蓝军开源情报知识星球会员，免费下载本文原文及8800字完整译文。资料索取请联系：19173111689（微信同号），报告订制请：19118805880（微信同号）。

关键词：算法战争，人工智能，深度强化学习，马赛克战争，虚拟指挥官，数据推理，非线性逻辑，决策转换器

这是蓝军开源情报的第 527期分享

编译 l 所长007

来源 l 蓝军开源情报（ID：Lanjunqingbao）转载请联系授权（微信号：Lanjunqingbao2081）

2025年12月，美国战争部采用了谷歌Gemini的政府专用人工智能模型“GenAI.mil”。该部门宣布计划利用人工智能进行深度研究、文档创建以及视频和图像分析。预计这将显著提高战争部各项行动的效率，包括情报分析、后勤保障和数据收集。

我们已经见证了人工智能在DeepMind的AlphaGo与李世石的对决中取得胜利。然而，我们却忽略了AlphaGo胜利中隐藏的一个关键信号。当时，围棋解说员将AlphaGo的棋步评为“失误”或“难以理解”。

但最终，这些棋步堪称神来之笔，决定了胜负。人类无法理解人工智能的棋步的原因显而易见。AlphaGo不仅记住了人类数千年来积累的棋谱，还创造了一种全新的逻辑，通过惊人的自学习能力将其胜率最大化。

【图1】李世石对战AlphaGo

未来，当像Gemini这样的大型人工智能模型被部署用于制定战术时，情况也将如此。指挥官们很可能难以理解人工智能提出的战术为何有效，从而在人类直觉和机器概率之间造成巨大鸿沟。

本文并非仅仅关注人工智能如何辅助指挥官决策、缩短OODA循环以及加快战争节奏。文章认为，人工智能将催生算法战争——一种超越人类理解的作战模式，因此我们必须理解人工智能，而不是让人工智能帮助我们理解自身。

[图 2] 利用 Google Gemini

一、人工智能学习方法

DeepMind于2015年凭借深度Q网络开创了强化学习最基础的篇章。该学习智能体使用神经网络来近似Q函数，Q函数表示在给定状态(S)下采取特定动作(A)的预期收益。这一公式使人工智能不仅能够计算即时收益(R)，还能计算未来的收益。这正是AlphaGo能够做出非常规走法，即使在早期处于劣势，也能在后期扭转乾坤的根源所在。

自那时起，强化学习取得了显著的进步。举一个简单的研究例子，近端策略优化通过施加约束来稳定学习收敛，防止学习过程中策略变化过于突然。软演员-评论家不仅对奖励进行评分，还对动作的多样性（熵）进行评分。这使得人工智能能够更积极地探索人类难以想象的奇特而富有创意的策略。

【图3】强化学习架构和公式

在众多人工智能模型架构中，决策转换器不容忽视。决策转换器利用了Transformer——一种用于理解序列和关系的常用结构。传统的强化学习侧重于学习最大化奖励的策略或价值函数，而决策转换器则将强化学习问题重新定义为“条件序列建模”问题，通过对输入信息（序列）施加条件，将关注点集中于特定内容，这与GPT等语言模型预测下一个词的原理类似。决策转换器最大的优势在于其能够理解长期上下文以及其稳定的学习特性。

前述的强化学习仅适用于单个实体，而战斗涉及多个参战者协同作战以取得胜利。因此，本文引入了多智能体强化学习。

二、人工智能如何战斗

那么人工智能将如何指挥战争？归根结底，人工智能将彻底消除组织和计划这一行为。

首先，人工智能会制定人类难以理解的策略。AlphaGo就是通过一些连解说员都无法理解的棋步赢得了比赛。在《星际争霸》中，它们通过在基地部署大量工兵并完全分散兵力来取得胜利，而这些技巧是人类玩家不会使用的。这场胜利意义非凡，因为它是在人工智能的物理能力有所降低的情况下取得的。这是因为人工智能的思维方式与人类截然不同。

人类依靠习俗和经验积累来快速评估复杂局势。然而，人工智能缺乏传统或常识。它计算出成千上万种人类甚至不会考虑的情景，并选择那些略微提高胜算的方案。此外，人类依赖于诸如“地形崎岖，所以我们伏击”之类的因果关系，而人工智能则会将看似与人类完全无关的变量结合起来。它能够展现出反直觉的优化策略，例如敌方通信周期、湿度和烟雾弹如何提高胜算。这意味着，那些会让人类指挥官质疑“为什么要放烟雾弹？”的战术，在人工智能看来却可能成为有效的战术。

传统军事力量的计划流程十分繁琐：部署情报、监视与侦察资产、获取数据、评估情报、构思和制定作战方案，以及进行演练验证。此外，还会制定大量的应急预案和子预案，以应对各种情况并降低不确定性。

虽然某些步骤可以根据具体情况或需要省略，但它们本质上是累积性的。而人工智能则不然，它并不遵循这种线性流程。一旦人工智能接收到诸如探测资产、地形和天气信息、友军数据以及预期目标等输入，它就会基于数万亿次的模拟，生成预先学习的作战计划。

这种方法并非源自传统作战指令的线性过程，而是对系统进行逆向工程，以减少目标值（最终状态）与当前状态之间的误差。参谋人员的建议、指挥官的作战指令以及任务细节都被纳入参数值中。此外，人工智能不会制定单独的应急预案。当情况发生变化时，它会立即重新调整参数，实时生成新的路径。因此，在算法战争中，作战过程不再是计划文件或预测，而是对流动数据做出的持续响应。

克劳塞维茨所描述的军事天才似乎有可能在算法战争中涌现。他将军事天才定义为能够掌控不确定性和偶然性，拥有“一瞥”——一种能够拨开战争迷雾、洞悉真相的直觉。虽然这种特质过去只有少数人拥有或通过训练才能获得，但人工智能可以通过数据驱动的推理重新定义军事天才的特质。

此外，算法战争预计会缺乏组织结构。传统的作战计划会根据作战环境分配战斗力，而人工智能会进一步加剧这种分散化。在传统战争中，人类指挥官指挥作战单位。因此，战斗力被认为来源于单位而非个人。这可能源于“群体大于个体”的观念，但也可能是由于指挥官认知能力的局限性而做出的不可避免的妥协。由于人类无法单独控制成千上万的士兵，将他们编组成单位并下达简化的命令是最有效的方法。换句话说，现有的组织结构并非战术优化的结果，而是人类大脑为了应对战争的复杂性而创造的一种便利机制。

相比之下，人工智能的可控限制要少得多。在算法战争中，战场上成千上万的作战人员和装备不再被视为一个统一的整体，而是被视为具有独立参数的独立节点。这使得数百名士兵和数千架无人机能够被识别和控制，并被视为独立的实体。在目标获取行动中，人工智能采用的战术能够在几秒钟内为数千个单位分配不同的任务，打击敌方要害。这类似于数学同步，完全超出了人类指挥官所能协调的“合作”范畴。

此外，基于多目标强化学习，训练可以在学习阶段以集中式结构进行，类似于传统的训练方法，然后在执行阶段脱离中央控制。每个智能体根据其参数中固有的团队协作来执行操作。即使在人工智能指令断开或缺失的情况下，每个智能体也能根据其学习结果执行操作。这表明，基于多目标强化学习的“基于任务的指挥”（即赋予智能体执行操作的意图，而非分配任务）在技术上是可行的。

人工智能生成的算法战争与美军提出的“马赛克战争”概念在某种程度上是契合的。“马赛克战争”是一种作战理念，它结合有人和无人作战力量，以实现共同的任务目标，从而彻底改变任务自主性，提高决策的速度和复杂性，使我方能够比敌人更快地做出反应，同时让敌人难以了解我方的作战态势。

DARPA将这种“马赛克式”战争比作一场体育比赛。它将其描述为类似于足球教练根据对对方球队实力的评估来组合不同球员，并通过轮换来消耗对方球队的技能或创造关键时刻。人工智能不遵循任何既定结构或制定策略。它实时计算可用资源和环境因素，并编写仅在特定时刻有效的最优非对称战术。

【图4】马赛克战争

三、问题与期望

关于人工智能指挥作战，可能会出现各种问题。

首先，人工智能能否在作战中展现出与人类同等的创造力？在伊拉克战争中，美军使用了简易爆炸装置和炸弹；在俄乌战争中，无人机开辟了战场的新天地。通过运用不可预测的手段和资源，他们成功地对敌人发动了突袭，并达成了既定目标。一些人认为，这种创造力是人类独有的，而人工智能作为数据的集合体，其能力是有限的。

简易爆炸装置和无人机等高效武器系统往往源于现有技术的创新组合。人工智能能够将所有可用的民用和军用资源进行矢量化，进行空间部署，并在计算实现目标的最短路径时连接原本互不相连的点。

其次，人工智能能否展现人类的自卫精神？人们可能会质疑，人类保护家人和国家的意志能否转化为机械语言。有人认为，人工智能缺乏人类所拥有的那种高尚的牺牲精神或无私奉献，因此无法在生死攸关的时刻做出牺牲自己以保护队友的决定。然而，人工智能可以通过“全局优化”的数学方法实现这一点。从人工智能的角度来看，牺牲并非出于情感，而是关乎资源分配和目标达成。

四、算法大战中的瓶颈

人工智能驱动作战的瓶颈究竟在哪里？矛盾的是，瓶颈恰恰在于人类——主要的战术执行者。尽管人工智能能够将战场分解成离散的数据单元，但基层士兵和指挥官仍然停留在“单元级”的思维模式中。此外，人工智能计算出的精确胜率可能会因为士兵的生理或心理限制而无法执行人工智能指令的精确操作，或者指挥官因直觉偏差而改变作战方向而功亏一篑。

即使作战指挥算法完全可行，开发必须实际实现该算法的无人作战系统也可能成为另一个瓶颈。

人工智能本身也面临诸多限制。这些限制并非源于计算速度或硬件问题，而是源于当前学习算法的根本局限性。

五、未来预期和发展计划

首先，必须对人类指挥官进行再培训，使其接受人工智能的非线性逻辑。

其次，后勤保障领域必须为人工智能的战术决策提供物理支持，而这很可能成为瓶颈。

第三，非对称武器（大规模杀伤性武器）作为展示军事力量的手段，其作用可能会增强。

最后，我们必须考虑“人工智能电子战”或“数据电子战”的概念，以确保人工智能在对抗对手时保持优势。

添加微信：lanjunqingbao2081

获取报告目录

👇👇

加入蓝军开源情报星球会员 免费下载2700+资料

👇👇

原价999元！星球试运营期间199元！试运营结束，恢复原价！

扫码了解、加入

👇👇

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：蓝军开源情报所长007 所长007《基于人工智能的“算法大战”的机制与启示（9000字干货）》