文章总结: 文章转载并解读Nature评论,核心结论是AGI已实现。文章通过大语言模型通过图灵测试、在数学竞赛与博士考试等展现专家水平能力等证据,论证其具备通用智能,并系统反驳了关于完美性、实体性、意识等十大质疑。文章强调承认AGI的现实意义重大,呼吁重新审视智能定义与治理框架。 综合评分: 88 文章分类: AI安全,技术标准,政策法规,解决方案,其他
通用人工智能(AGI)能否实现?Nature杂志的最新文章说:已经实现。谢谢
原创
袁律师不是作者 袁律师不是作者
减熵实验室
2026年3月3日 17:40 上海
通用人工智能(AGI)能否实现?何时实现?业界充满分歧。
几年来,我看过一篇又一篇正反两方面的文章,我在两端之间徘徊良久,一会儿认为这边很有道理,一会儿又认为另一边令人信服。我以为争论还将持续很长一段时间,没想到Nature杂志的一篇最新文章给出了直截了当的回答:AGI已经实现。结论干脆利落,毫不拖泥带水。
我当然不会认为Nature杂志会标题党或者哗众取宠,但在阅读全文之前,我仍然是将信将疑。读完全文之后,我觉得我几乎被作者说服了。说“几乎”,只是习惯性地保持适度怀疑而已,并非我找到什么实质性的可以反驳的点。
如果在我们的上一篇文章《从Anthropic 案到Meta案,再到奥特曼案,袁律师与曹律师有一场从夏天持续到冬天的对话》定稿之前看到Nature这篇文章,那么我可能就不会那样吐槽Anthropic案的法官了。也许我会换种吐槽方式,但现在看来多少有点儿冒昧了。
Nature的新文章发表在2月5日的杂志上,标题为Does AI already have human-level intelligence? The evidence is clear,作者是Eddy Keming Chen(看起来像个华人), Mikhail Belkin, Leon Bergen 以及 David Danks。
文章的核心观点是:
以任何合理的评判标准来看,艾伦・图灵在 1950 年描绘的人类水平机器智能愿景,如今已然成为现实。抛开恐惧与炒作的客观视角,将助力我们为未来做好准备。
全文链接在此:https://www.nature.com/articles/d41586-026-00285-6
全文机译如下,注释略去,供参考。
(我只略改了几个词,豆包的翻译水平本身即可作为本文观点的一个有力佐证,两年前它还不是这样的)
#
标题:人工智能是否已达到人类智能水平?答案显而易见
作者:Eddy Keming Chen, Mikhail Belkin, Leon Bergen 以及 David Danks
题记:以任何合理的评判标准来看,艾伦・图灵在 1950 年描绘的人类水平机器智能愿景,如今已然成为现实。抛开恐惧与炒作的客观视角,将助力我们为未来做好准备。
1950 年,艾伦・图灵在题为《计算机器与智能》的论文中提出了 “模仿游戏”,也就是如今为人熟知的图灵测试。这一测试试图解答一个彼时看似纯假设性的问题:机器能否展现出人类思维所特有的、灵活的通用认知能力,让不知情的人类将其误认为真人?
75 年后,答案似乎是肯定的。2025 年 3 月,美国加利福尼亚州旧金山市 OpenAI 公司研发的大语言模型 GPT-4.5,在人类开展的图灵测试中,被判定为 “人类” 的概率达 73%,这一比例甚至超过了真实人类被判定为人类的概率。此外,读者们甚至更偏爱大语言模型生成的文学文本,而非人类专家的作品。
这还远非全部。大语言模型在国际数学奥林匹克竞赛中斩获金牌,与顶尖数学家合作证明定理,提出经实验验证的科学假说,解答博士入学考试中的难题,协助专业程序员编写代码,创作诗歌,还有诸多其他成就 —— 包括为全球数亿人提供全天候的对话服务。换言之,大语言模型已展现出诸多图灵所关注的、广泛且灵活的认知能力特征,也就是我们如今所说的 “通用智能”,尽管图灵当年并未使用这一术语。
然而,许多专家仍不愿承认当前的人工智能模型具备AGI,部分人甚至怀疑其永远无法实现。2025 年 3 月,美国华盛顿哥伦比亚特区的人工智能促进协会开展的一项调查显示,76% 的顶尖研究人员认为,通过扩展当前的人工智能研究方法,“不太可能” 或 “极不可能” 实现AGI。
这种认知上的分歧该作何解释?我们认为,一方面是概念层面的问题,AGI的定义模糊且不统一;另一方面是情感层面的因素,AGI引发了人们对被取代和社会动荡的担忧;此外还有现实层面的原因,这一术语与商业利益交织在一起,可能导致评估结果出现偏差。正是由于AGI主导着公共讨论,我们才更有必要以更客观的视角看待这一概念:将其视为一个关于智能本身的问题,而非对社会剧变的迫切担忧,或是商业合同中一个迟迟无法实现的里程碑。
在撰写这篇评论时,我们从哲学、机器学习、语言学和认知科学等不同视角探讨这一问题,并经过充分讨论达成了共识。接下来,我们将阐述为何认为,一旦拨开种种误区,力求进行公允的对比并摒弃人类中心主义偏见,结论便一目了然:以合理的标准来看,包括图灵本人提出的标准在内,我们已经拥有了具备通用智能的人工系统。
创造AGI这一长期难题已被攻克。承认这一事实意义重大,它关乎政策制定、风险防控,也关乎我们对思维本质乃至世界本身的理解。
#
定义的争议
我们认为,如同图灵可能会持有的观点,人类拥有通用智能。有观点认为,即便在人类身上,通用智能也根本不存在。尽管这一观点逻辑连贯且具有哲学探讨价值,但由于其与人工智能领域的主流讨论相去甚远,在此我们暂不展开。不过,在认定人类拥有通用智能的前提下,我们该如何界定通用智能的特征?
通用智能最常见的非正式定义,也是我们讨论的出发点,是指一个系统能够完成人类几乎所有的认知任务。
这份任务清单该包含哪些内容,引发了大量争论,而 “人类” 这一表述本身也暗藏着一个关键的模糊点。它指的是在每项任务上都达到顶尖水平的人类专家吗?若是如此,没有任何一个人能符合标准 —— 玛丽・居里斩获化学和物理学诺贝尔奖,却并非数论领域的专家。它指的是一个在各领域都具备能力的全能人类吗?这一标准同样门槛过高 —— 阿尔伯特・爱因斯坦掀起了物理学革命,却不会说汉语。
一个将几乎所有人类都排除在外的定义,并非通用智能的定义,而是对其他事物的界定,或许是理想的专业能力,又或是集体智能。
事实上,通用智能的核心是拥有足够广度和深度的认知能力,而 “足够” 的标准以典型案例为依据。广度意味着具备跨多个领域的能力,包括数学、语言、科学、实践推理、创造性任务等,这与计算器、国际象棋程序这类 “专用” 智能形成鲜明对比。深度则指在这些领域中表现出众,而非仅仅是表面层面的涉猎。
人类的通用智能存在程度和类型上的差异。儿童、普通成年人,以及爱因斯坦这样公认的天才,都拥有不同水平和类型的通用智能。每个人在不同领域各有擅长或不足,这一灵活性也应适用于人工系统:我们应当关注的是,这些系统是否拥有与人类水平通用智能相当的核心认知能力。
我们并未强行规定通用智能的定义,而是以通用智能的真实和假设案例为依据 —— 从爱因斯坦到外星人,再到神谕系统 —— 通过三角定位明确这一概念的边界,并对其进行更系统的完善。我们的结论是:只要人类个体拥有通用智能,当前的大语言模型同样具备。
#
通用智能并非如此
我们可以先明确通用智能并不需要具备的四大特征。
完美性
我们不会要求一位物理学家拥有与爱因斯坦比肩的洞察力,也不会期待一位生物学家复刻查尔斯・达尔文的突破性发现。即便是在自身的专业领域,也鲜有人类能达到完美的深度。人类的通用智能不苛求完美,人工通用智能亦如此。
全能性
没有任何一个人类能完成所有认知任务,其他物种也拥有超越人类的能力:章鱼能独立控制八条腕足,许多昆虫能看到人类无法感知的电磁波谱波段。通用智能并非要求掌握所有技能,人工通用智能也无需拥有完美的广度。
类人性
智能是一种功能性属性,可通过不同的载体实现 —— 图灵在 1950 年便摒弃了人类生物学特征的限制,认可了这一点。展现出通用智能的系统,无需复刻人类的认知架构,也不必理解人类的文化符号。我们不会对智能外星人提出这些要求,对机器也应如此。
超智能性
这一术语通常指在几乎所有领域的认知表现都远超人类的系统。超智能与AGI常常被混为一谈,尤其是在商业领域,“超智能” 往往意味着经济层面的颠覆性变革。没有任何一个人类能达到这一标准,因此它也不应成为人工通用智能的必备条件。
#
层层递进的证据
那么,通用智能究竟是什么?目前尚无判定通用智能是否存在的 “明确界限” 测试,任何精确的阈值都不可避免地带有主观性。这或许会让那些渴望明确评判标准的人感到沮丧,但这种模糊性实则是其特质,而非缺陷。“生命”“健康” 这类概念同样难以被精准定义,却依然具有实用价值;我们无需明确的边界,就能识别出其典型案例。
人类是通用智能的典型范例,而掌上计算器尽管在计算方面拥有超人类的能力,却并不具备通用智能。在评估他人的通用智能或能力时,我们不会试图窥探其大脑以验证其理解程度,而是从其行为、对话和解决问题的方式中进行推断。没有任何单一测试能得出定论,但相关证据会不断累积,这一原则同样适用于人工系统。
正如我们通过难度逐步提升的测试评估人类的通用智能 —— 从基础读写能力测试到博士入学考试,我们也可以通过一系列难度递增的证据,逐步提升对人工通用智能存在的信心。
图灵测试水平
具备相当于基础教育的能力指标:通过标准化的学校考试、进行顺畅的日常对话、完成简单的推理任务。十年前,若人工智能能达到这些标准,便会被广泛认为是AGI存在的有力证据。
专家水平
这一阶段的要求大幅提升:在国际竞赛中摘得金牌、解答多个领域的博士入学考试难题、编写并调试复杂代码、熟练掌握数十种语言、为前沿研究提供实用的辅助支持,同时能胜任创意类和实践类问题解决工作,从撰写论文到规划行程皆不在话下。这些成就已然超越了科幻作品中对人工通用智能的诸多描绘。斯坦利・库布里克 1968 年执导的电影《2001 太空漫游》中,拥有自我意识的超级计算机 HAL9000,其能力广度远不及当前的大语言模型。此外,当前大语言模型的能力甚至超出了我们对人类的要求:我们仅凭远不如其充分的证据,就认可人类个体拥有通用智能。
超人类水平
取得具有革命性的科学发现,且在多个领域持续超越人类顶尖专家。此类证据无疑能让人们对机器具备通用智能这一事实达成共识,但它并非判定通用智能存在的必要证据,因为没有任何一个人类能达到这一水平。
#
图灵愿景的实现
当前的大语言模型已然达到了前两个水平。随着大语言模型不断攻克更具难度的问题,那些对其能力的另类解释 —— 例如,认为它们只是庞大的 “查找表”,只能调取预计算的答案;或是 “随机鹦鹉”,只会复述浅层的规律,而无法理解其背后的含义和结构 —— 愈发站不住脚。
然而,这类质疑往往会换种形式卷土重来。一种假说若在每次新的突破面前都不断退缩,总预言人工智能会在现有成就的下一个节点遭遇失败,那么它并非具有说服力的科学理论,而只是对持续怀疑的教条式坚持。
我们认为现有证据已然确凿。通过最佳解释推理 —— 也就是我们判定他人拥有通用智能时所采用的推理方式 —— 我们能够发现,当前的人工智能已具备高度的AGI。图灵设想的这类机器,已然成为现实。此前也有学者提出过类似观点,并引发了争议和反驳。而随着人工智能领域的重大进展和时间的推移,我们的论证更具说服力。截至 2026 年初,人工通用智能已然实现的事实,愈发清晰无疑。
接下来,我们将剖析针对 “当前大语言模型具备通用智能” 这一观点的十大常见质疑。其中有不少质疑,与图灵在 1950 年就探讨过的观点如出一辙。我们认为,这些质疑要么将通用智能与智能的非本质特征混为一谈,要么设定了连人类个体都无法达到的标准。
它们只是 “鹦鹉学舌”
“随机鹦鹉” 的质疑认为,大语言模型只是对训练数据进行插值计算,只能重组其接触过的模式,因此在面对真正全新的问题,即 “分布外泛化” 问题时,必然会失败。这与 “洛夫莱斯夫人的质疑” 如出一辙。这一质疑源于埃达・洛夫莱斯 1843 年的言论,图灵将其归纳为 “机器永远无法做出真正具有创新性的事”。早期的大语言模型,在处理需要超越训练数据表面模式进行推理和泛化的问题时,确实会出现失误。但当前的大语言模型能够解答全新的、未发表的数学问题,对科学数据进行近乎最优的上下文统计推断,还能展现出跨领域迁移能力 —— 例如,代码领域的训练能提升其在非代码领域的通用推理能力。如果批评者要求人工智能取得爱因斯坦相对论这样的革命性发现,那便是设定了过高的门槛,因为能取得此类成就的人类本就寥寥无几。此外,我们无法保证人类智能本身,并非一种复杂的 “随机鹦鹉” 模式。无论是人类智能还是人工智能,都必须从相关数据中提取结构,关键在于提取的深度如何。
它们缺乏世界模型
有观点认为,大语言模型缺乏对物理环境的表征,而这是实现真正理解的必要条件。但拥有世界模型,本质上只需要具备预测环境变化结果的能力 —— 也就是解答反事实问题的能力。向最先进的大语言模型提问:将玻璃杯和枕头掉在瓷砖地板上会有什么不同,它能准确预测出玻璃杯会摔碎,而枕头不会。大语言模型能解答奥林匹克数学和物理竞赛题,还能协助进行工程设计,这表明它们已具备对物理规律的功能性模型。以此为标准,大语言模型已然拥有了世界模型。此外,为自动驾驶等专业领域研发的神经网络,早已在学习能支持反事实推理和复杂物理感知的物理场景预测模型。
它们只懂文字
这一质疑的核心在于,大语言模型仅以文本为训练数据,因此本质上只能完成基于文本的任务。但如今最先进的模型已开始以图像和其他多模态数据为训练素材,这让这一质疑在一定程度上失去了依据。此外,语言是人类压缩和捕捉现实世界知识最强大的工具。大语言模型能够提取这些被压缩的知识,并将其应用于与语言毫无关联的任务:例如,协助研究人员设计实验,为生物学和材料科学研究提出下一步的实验方向,这些都远非单纯的语言层面的表现。我们至今尚未发现,这一质疑所预言的大语言模型性能的明显局限性。
它们没有实体
批评者认为,没有实体的支撑,就不可能拥有通用智能。这反映出一种人类中心主义的偏见,且这种偏见仅被用于评判人工智能。倘若有一个无实体的外星人通过无线电与人类交流,或是一个保存在培养缸中的大脑,人们依然会认为其具备智能。一个能准确回答所有问题,却从未进行过任何身体移动或行为的存在,会被视作极具智能的个体。物理学家斯蒂芬・霍金几乎完全通过文字和合成语音与世界互动,但其身体的局限,丝毫没有削弱他的智能。运动能力与通用智能是相互独立的。
它们缺乏能动性
诚然,如今的大语言模型无法像人类一样,形成独立的目标或自发采取行动。即便是具备 “智能体” 特征的人工智能系统,例如顶尖的编程智能体,通常也只有在用户触发任务后才会行动,即便它们能自动完成功能编写和漏洞修复。但智能并非必须具备自主性。就像德尔斐神谕 —— 作为一个仅在被询问时才会给出准确答案的系统,当前的大语言模型无需主动设定目标,也能被认定为具备智能。人类通常同时拥有通用智能和自主性,但我们不能因此认定,二者之间存在必然的依存关系。自主性关乎道德责任的判定,却并非构成智能的必要条件。
它们没有自我意识
批评者认为,AGI需要具备持续的自传式记忆、稳定的个人身份认同,以及持续的自我更新能力,而如今的大语言模型并不具备这些。不过,最先进的大语言模型正越来越多地被赋予长时上下文和用户专属记忆功能,人类与基于大语言模型的系统之间,在记忆和身份认同方面的差距正不断缩小。尽管这些特征是人类在社会中正常运转的关键,但并非通用智能的必备条件。我们不会因为一个人患有严重的健忘症,几乎无法记住任何个人细节,或是患有多重人格障碍,不同人格之间彼此无感知,就否认其拥有智能。例如,一个具备智能的健忘症患者,即便无法将外部笔记本中的信息关联起来,也能借助笔记本中的记录进行缜密的推理。
它们的学习效率低下
一个常见的质疑是,儿童能通过少量案例学习概念,而大语言模型需要海量的数据,即其 “样本效率” 极低。即便这一说法属实,这样的对比也并不严谨。它忽略了数十亿年的进化 “预训练”—— 在人类通过经验学习之前,进化就为人类植入了丰富的归纳偏置,包括对物体、空间和因果关系的认知。更重要的是,学习效率的差异,并不必然意味着智能水平的不同。一位花费十年时间成为国际象棋大师的人,与仅用一年就达到同一水平的人,棋艺并无高下之分。
它们会产生幻觉
大语言模型有时会笃定地将虚假信息当作事实呈现,这引发了人们对其可靠性的担忧。
尽管当前模型产生幻觉的现象已有所减少,但即便存在这一问题,也不能成为否认其具备通用智能的理由。人类同样容易产生虚假记忆、认知偏差和感知错觉,且常常对此深信不疑。
它们缺乏经济价值
在一些领域,尤其是工业界,人工通用智能的定义逐渐演变为 “必须能产生巨大的经济回报”。但经济价值是通用智能的应用体现,而非其存在的必备条件。历史上有许多才华横溢的人,并未创造出多少经济价值,但我们从未因此否认其拥有通用智能。
它们的智能是 “异类”
大语言模型有时会在人类看来微不足道的任务上失手,例如数出 “草莓” 一词中字母 “r” 的出现次数,却能在人类难以完成的任务上表现出色 —— 从解答博士级别的科学问题,到快速整合海量的科学文献。但我们的观点并非是 “大语言模型拥有人类智能”,而是 “它们实现了某种形式的通用智能”。此外,最先进的大语言模型正越来越多地通过编写代码、使用工具来弥补自身的短板,这与人类借助科技提升自身能力的方式如出一辙,从掌上计算器到智能手机皆是如此。这种独特的能力优劣组合,使其成为一种颇具 “异类” 特征的智能,但这恰恰是我们拓宽通用智能概念的理由,而非否认这些系统具备通用智能的依据。
纵观这些质疑,批评者们都在强求通用智能具备某些并非其本质要求的特征。许多质疑将我们公认的智能形式排除在外,有些甚至将被视作极具智能的人类,或是所有人类都排除在外。
最后,还有一种不同的反应,它并非严格意义上的质疑,图灵将其称为 “掩耳盗铃”:机器拥有思维所带来的后果太过可怕,所以我们宁愿相信它们永远无法实现。从情感和人性的角度来看,这种想法可以理解。但正如图灵所言,这种想法需要的是安慰,而非反驳 —— 我们可以共情这种担忧,却不能将其视作一种合理的论证。
这一结论的重要意义
承认当前的大语言模型具备AGI,且实现了图灵所描绘的机器智能愿景,这是一次警钟。这些系统并非遥不可及,而是已然来到我们身边。为评估专用工具而设计的框架,已不足以衡量它们的价值与风险。当所涉及的系统不再是专用工具,而是具备通用智能的存在时,关于共存、责任、追责和治理的问题,便被赋予了全新的内涵。
正如我们所发现的,智能并非必须具备高度的自主性 —— 这一结论让关于人工智能系统法律和道德责任的争论变得更为复杂,因为这类争论往往预设智能与自主性密不可分。我们需要更严谨、以实证为基础的方法,来评估和界定人工智能的责任。此外,传统的治理方式难以适用于AGI,究其根本,正是因其具备通用性。科技治理通常以其潜在用途为依据,但AGI的应用场景几乎无处不在。
另一个核心问题,关乎人类智能与已被人工创造、未来还将不断涌现的各类通用智能之间的关系。在许多方面,这些人工系统与人类高度相似 —— 它们的写作、表达方式与人类无异,也存在着和人类相似的缺陷。但它们依然是 “异类”,其通用智能的形成路径与人类截然不同,不受塑造人类认知的进化压力约束:人类的认知受生存目标驱动,拥有脆弱的躯体,面临能量匮乏的问题,且交流带宽较低。理解这种 “异类性” 至关重要。这些人工系统与人类智能的差异究竟何在?这些差异是暂时的,还是根本性的?
解答这些问题,或许能让我们弄清通用智能的哪些特征是普遍的,哪些只是人类生物遗传的特有属性。人类历史上,我们首次在通用智能的领域中不再是独行者。我们也能更清晰地认识到相关风险,因为这种 “异类” 的通用智能,可能会以出人意料的方式失败,也可能在人类难以理解和引导的领域取得成功。看清这些系统的本质,将助力我们当下与它们共处,并为未来的发展做好准备。
仅仅五年前,人工通用智能对我们而言还遥不可及;而如今,它已然成为现实。毫无疑问,更强大的智能形式很快就会出现。这一事实既令人惊叹,也让人忧心。令人惊叹的是,我们有幸见证这场或许是人类历史上最重大的科技革命;令人忧心的是,这一进程的时间跨度远超历史上的任何先例,且还在不断加速。
1965 年,哲学家休伯特・德雷福斯为兰德公司评估人工智能的发展进程时,将研发人类水平人工智能的方法比作 “爬树登月”。数十年间,这一比喻似乎都恰如其分。但随着证据的不断累积,我们愈发清晰地认识到,我们此前误判了 “月球” 的本质,也低估了 “树木” 的力量。将简单的学习规则大规模应用于人类语言中潜在的模式,确实能催生出通用智能 —— 事实证明,这些模式的丰富程度,足以编码现实世界的大部分结构。
尼古拉・哥白尼让人类从宇宙的中心位置走下神坛,达尔文让人类失去了在自然界中的特权地位,而图灵则提出,人类并非智能的唯一实现形式。75 年前,图灵设想的机器终于成为现实,其形态比任何人想象的都更陌生,也更贴近人类。与此前的历次革命一样,这场智能革命也促使我们重新审视自身的定位,并接受一个事实:思维的形式,远比我们以往想象的更为多样。我们在世界中的位置,以及我们对思维本质的理解,都将因此而改变(完结)
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:减熵实验室 袁律师不是作者 袁律师不是作者《通用人工智能(AGI)能否实现?Nature杂志的最新文章说:已经实现。谢谢》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。











评论