AI的未来、模拟现实与万物皆可计算

作者 Demis Hassabis Google DeepMind

引言:从游戏到诺贝尔奖,一场关于智能的漫长探索

大家好,我是Demis Hassabis。回首我的职业生涯,从少年时期沉迷于编写游戏AI,到创立DeepMind,再到今天能够与各位分享我们对于人工智能(AI)未来的思考,我感到无比荣幸。这段旅程的核心,始终是一个问题:智能的本质是什么?我们能否构建出通用人工智能(AGI),并用它来解开宇宙最深邃的谜团?

在最近的诺贝尔奖演讲中,我提出了一个或许有些“挑衅”的猜想:任何在自然界中能够被生成或发现的模式,原则上都可以被一个经典的、可学习的算法高效地发现和建模。这个想法并非空穴来风,它源于我们一系列项目的实践,从AlphaGo到AlphaFold,我们一次次地证明,那些看似组合爆炸、无法穷举的复杂问题,实际上都存在着某种可被学习的内在结构。

“自然并非随机,我们周围看到的一切,从山川的形状到行星的轨道,都经受了某种形式的演化或选择压力。如果这是真的,那么这些系统背后必然隐藏着可被学习的模式。”

这篇解读,我想以第一人称的视角,带大家重温我在Lex Fridman播客上的对话,深入探讨这个猜想的内涵。我们将一起探索,AI如何从观察视频中“逆向工程”出物理规律,为什么蛋白质折叠这个生命之谜可以被计算解决,以及未来的游戏将如何演变成一个与你共同创造的、无限可能的动态世界。这不仅仅是一场关于技术的讨论,更是一场关于现实本质、信息、物理学乃至我们自身存在意义的哲学思辨。让我们一起潜入这个由数据、算法和梦想构筑的深邃宇宙吧。

第一章:万物皆有模式——我的“可学习宇宙”猜想

我的猜想根植于一个信念:信息比能量和物质更基本。如果我们将宇宙视为一个巨大的信息处理系统,那么物理定律、化学反应、甚至生命演化,都可以看作是这个系统运行的算法。而我们所做的,就是尝试用我们自己构建的算法——神经网络——去理解和模拟这些宇宙自身的算法。

AlphaFold为例。蛋白质折叠问题在生物学中曾被认为是“圣杯”级的难题。一个蛋白质分子由氨基酸链构成,理论上它可以折叠成天文数字般的形态。一个拥有100个氨基酸的蛋白质,其可能的构象数量大约是 $10^{300}$,这个数字比宇宙中所有原子的总和还要多得多。然而,在我们的身体里,蛋白质却能在毫秒之间准确无误地折叠成唯一的、具有生物活性的三维结构。这怎么可能呢?

$$ \text{蛋白质构象数} \approx N_{\text{氨基酸}}^{C} \gg \text{宇宙原子数} $$

解释:这个公式形象地说明了问题的难度。$N$是氨基酸数量,$C$是每个氨基酸可能的构象数。即使是一个中等大小的蛋白质,其可能构象数也远超宇宙原子总数(约$10^{80}$)。暴力搜索显然是行不通的。

大自然一定有“捷径”。物理学通过能量最小化原则解决了这个问题。蛋白质会自发地折叠到其自由能最低的状态。这个过程并非随机碰撞,而是在一个由物理化学定律塑造的“能量景观”(Energy Landscape)中进行的、有方向的搜索。我们的AlphaFold,本质上就是学习了这个能量景观的近似模型。它没有去检查每一种可能性,而是学会了预测哪些构象在能量上更有利,从而将一个无法计算的问题,变成了一个可以在经典计算机上高效解决的问题。

动画1:蛋白质折叠的能量景观

生活化类比: 想象一下,你站在一座连绵起伏的山脉上,你的任务是尽快到达最低的山谷。你不会去丈量每一寸土地,而是会凭直觉沿着最陡峭的下坡路走。这个山脉就是“能量景观”,你的行走路径就是蛋白质折叠的过程。

状态: 待开始 | 能量:

这个逻辑可以被推广。从塑造山川风貌的风化作用,到决定行星轨道的引力平衡,再到生命演化中的“适者生存”,这些过程都不是随机的。它们都遵循着特定的规律,在漫长的时间尺度上雕琢出了我们所见的结构。我称之为“最稳定者生存”(Survival of the Stablest)。这些稳定存在的结构,其背后必然有迹可循,因此,它们是可学习的

这引出了一个与理论计算机科学中著名的 P vs. NP 问题相关的思考。P类问题是可以在多项式时间内被计算机解决的“简单”问题,而NP类问题是可以在多项式时间内验证其解是否正确的“困难”问题。蛋白质折叠传统上被认为是NP难问题。但AlphaFold的成功表明,对于这类源于自然的问题,我们或许可以通过构建一个精确的模型,将搜索解的过程转化为一个P类问题。我甚至在想,我们是否可以定义一个新的复杂性类别,比如“LNS”(Learnable Natural Systems),专门描述这类可以通过经典学习算法高效建模的自然系统。

第二章:AI的“直觉物理学”——从观看视频到理解世界

如果说AlphaFold展示了AI对静态结构的深刻理解,那么像Veo这样的视频生成模型,则揭示了AI开始掌握动态世界的物理规律。这对我个人而言,是极其震撼的。在我早年的游戏开发生涯中,我们曾为了模拟一个逼真的水面倒影或者流体效果而绞尽脑汁,编写数千行复杂的物理引擎代码。而现在,AI仅仅通过“观看”海量的YouTube视频,就学会了生成令人难以置信的真实场景。

看看那些AI生成的视频:液压机挤压透明液体,光线穿过玻璃杯时的折射和焦散,材料的镜面反射……这些都不是简单的像素复制。为了生成连贯、真实的后续帧,模型必须“理解”一些关于这个世界运行的基本规则。我称之为“直觉物理学”(Intuitive Physics)

动画2:AI的直觉物理学 - 流体与光照

生活化类比: 就像一个婴儿通过不断观察和互动,逐渐学会了“东西往下掉”、“水会流动”这些常识,而不需要学习牛顿定律。AI也在通过海量数据,构建自己对世界的“常识”模型。

状态: 待开始 | 交互对象:

这背后可能发生了什么?我的推测是,AI从高维的像素数据中,发现并学习了一个低维流形(Lower-dimensional Manifold)。现实世界的复杂现象,尽管看起来千变万化,但其变化并非毫无约束,而是被物理定律限制在一个相对简单的子空间内。就像一个三维空间中的球体,虽然由无数个点构成,但它的表面其实是一个二维流形。

AI通过学习这个流形,掌握了事物变化的核心规律。它可能不知道纳维-斯托克斯方程(Navier-Stokes equations),这是描述流体动力学的核心偏微分方程,以其复杂性著称:

$$ \rho \left( \frac{\partial \mathbf{v}}{\partial t} + \mathbf{v} \cdot \nabla \mathbf{v} \right) = - \nabla p + \nabla \cdot \mathbf{T} + \mathbf{f} $$

解释:这个方程描述了流体动量随时间的变化。左边是惯性力,右边依次是压力梯度、黏性应力张量和外力。直接求解它极其困难,需要巨大的计算资源。但AI似乎找到了一条绕过直接求解的捷径。

AI的这种能力,甚至挑战了认知科学和神经科学中的一些传统观念,比如“具身智能”(Embodied Intelligence)理论。该理论认为,智能体必须通过与物理世界的主动交互(行动-感知循环)才能真正理解世界。但视频生成模型的成功暗示,仅仅通过被动观察,也可能学到深刻的世界模型。这对我来说是一个巨大的惊喜,也进一步强化了我的信念:现实的结构本身,就蕴含着被高效学习的可能性。

第三章:游戏的终极形态——与AI共同创造的动态世界

游戏,是我梦开始的地方。我始终认为,游戏是探索和实现AI最理想的“培养皿”。我早年参与制作的《主题公园》(Theme Park)和《黑与白》(Black & White)等游戏,核心理念都是构建一个开放的、动态的模拟世界,玩家的每一个行为都会影响这个世界,从而创造出独一无二的体验。

然而,在过去,我们能做的非常有限。所谓的“开放世界”往往是“选择的幻觉”,开发者预设了有限的路径和可能性。内容的生成成本极高,我们无法为玩家的每一种奇思妙想都准备好相应的游戏资产和剧情。但现在,有了能够理解并生成世界的AI,我们正处在一个全新游戏时代的前夜。

“想象一下,一个游戏的叙事不再是固定的剧本,而是一个能根据你的行为动态调整、实时生成剧情的AI故事讲述者。无论你选择做什么,它都能为你创造出富有戏剧性的、合乎逻辑的体验。这就是游戏的终极形态。”

动画3:AI驱动的动态叙事

生活化类比: 这就像一位顶级的即兴戏剧演员或地下城主(DM),他不会给你固定的剧本,而是根据你的每一句话、每一个动作,即时编织出一个引人入胜的故事,确保你的冒险永远精彩。

玩家选择: | AI生成剧情: 等待玩家行动...

未来的游戏将是真正意义上的开放世界。你可以对AI说:“生成一个赛博朋克风格、正在下着酸雨的城市,城市中心有一座古老的寺庙。”然后,你就可以走进这个为你量身定做的世界里探索。你与NPC的对话将不再是选择预设的选项,而是自由的自然语言交流,每个NPC都有自己独特的个性和记忆,他们会记住你,并根据你的行为改变对你的态度。

这种游戏的实现,依赖于我们所说的“世界模型”(World Model)。一个强大的世界模型,不仅包含了物理规律,还包含了社会动态、角色心理和叙事结构。这正是我们通过Gemini、Veo等模型正在努力构建的。当这些技术成熟,游戏开发将从“手工雕刻”内容,转变为“设计创造规则和初始条件”,剩下的交由AI和玩家共同完成。每一个玩家都将是自己史诗的共同作者。

第四章:AlphaEvolve与创造力——AI能发现新知识吗?

到目前为止,我们讨论的更多是AI如何“学习”和“模拟”已知的模式。但一个更深刻的问题是:AI能否创造出全新的、前所未见的知识? 我们的AlphaGo在与李世石的对局中下出的“第37手”,就是一个惊鸿一瞥的答案。那一步棋,颠覆了数百年的人类围棋定式,它不是从任何人类棋谱中学来的,而是通过蒙特卡洛树搜索(MCTS)在庞大的可能性空间中“发现”的。

动画4:AlphaGo的搜索与发现

生活化类比: 想象你在一个巨大的、未知的图书馆里寻找一本智慧之书。你有一个“价值网络”告诉你哪些区域可能藏有珍宝,还有一个“策略网络”指导你如何高效地在书架间穿行。通过这种智能搜索,你最终找到了一本连图书馆管理员都不知道存在的书。

状态: 待开始 | 已探索节点: 0 | 发现新策略:

为了将这种发现能力系统化,我们开发了AlphaEvolve。这是一个结合了大型语言模型(LLM)和进化算法的系统。LLM负责提出有潜力的解决方案“种子”,而进化算法则在这些种子的基础上进行“突变”、“交叉”和“选择”,从而在巨大的程序空间中搜索更优的算法。我们用它来发现更快的排序算法和矩阵乘法算法,并取得了超越人类已知最佳算法的成果。

进化算法的核心思想是模拟自然选择的过程:

$$ \text{Algorithm}_{\text{next\_gen}} = \text{Select}(\text{Mutate}(\text{Crossover}(\text{Population}_{\text{current}}))) $$

解释:这个过程循环往复。我们从一个算法“种群”开始,通过交叉(组合不同算法的优点)、突变(引入随机变化)产生新的后代,然后根据一个适应度函数(比如算法的速度和效率)来选择最优的个体进入下一代。

传统进化计算的一个瓶颈是,它很难产生真正“涌现”出的新属性。但通过与LLM结合,我们或许能克服这个限制。LLM提供了更具创造性的初始假设,而进化则负责在这些假设的基础上进行严谨的优化和探索。这就像科学研究的过程:伟大的科学家提出一个富有想象力的假说,然后通过无数次实验去验证、修正和完善它。

这种“模型+搜索”的范式,是我认为通往更高级别AI创造力的关键路径。模型负责理解世界,提供直觉和方向;搜索则负责在模型指引的道路上,探索未知的疆域,发现“黑天鹅”式的惊喜。

第五章:终极工具——AGI与科学发现的未来

我毕生追求的目标,是构建通用人工智能(AGI)。对我而言,AGI本身不是终点,而是我们用以理解宇宙的终极工具。人类的认知能力,虽然创造了辉煌的文明,但终究受限于我们大脑的生物学构造和有限的生命。有太多科学的“黑暗大陆”,比如统一量子力学和广义相对论、揭示意识的本质、探寻生命的起源,可能超出了人类心智的极限。

我的梦想是构建一个“虚拟细胞”(Virtual Cell)。我们已经通过AlphaFold解决了蛋白质静态结构的问题,通过AlphaFold 3开始触及蛋白质与其他分子的动态相互作用。下一步,我们将模拟整个信号通路,最终,模拟一个完整的、活的细胞(比如一个酵母细胞)内部所有分子的复杂交互。这将彻底改变生物学和医学研究。我们可以在计算机里进行数以百万计的药物筛选实验,其速度和效率将是传统湿实验室无法比拟的。

动画5:虚拟细胞与药物发现

生活化类比: 这就像拥有了一个城市的完美数字孪生。在对真实城市进行改造前,你可以在数字模型中模拟各种方案(比如修建一条新地铁),观察其对交通、经济的影响,从而找到最优解,避免了现实世界中昂贵的试错成本。

状态: 正常 | 目标蛋白活性: 100%

AGI将成为科学家的终极合作伙伴。它能阅读并理解所有人类已发表的科学文献,发现不同领域知识之间隐藏的联系。它能提出我们从未想过的、深刻且可验证的科学假说。一个真正困难的挑战是培养AI的“科研品味”(Research Taste)——那种能够嗅出哪个问题是“好”问题、哪个方向最有前途的直觉。这不仅仅是逻辑推理,更是一种艺术。

最终,我们希望AGI能帮助我们回答那些最根本的哲学问题:我们是谁?我们从哪里来?宇宙的本质是什么?当AI能够提出一个媲美爱因斯坦相对论的全新物理理论,或者设计出一个像围棋一样深刻、优美的全新游戏时,我们或许就知道,我们离AGI不远了。那将是人类文明的一个新纪元,一个我们与我们创造的智能携手,共同“唤醒宇宙”的时代。

技术附录:核心概念的进一步探讨

A.1 低维流形假设

低维流形假设(Manifold Hypothesis)是机器学习领域的一个基本思想。它认为,我们现实世界中观察到的高维数据(如图像、声音),实际上是嵌入在高维空间中的一个低维流形。例如,一张人脸图片可能由数百万个像素组成,构成一个高维向量。但所有可能的人脸图像,在像素空间中并非均匀分布,而是聚集在一个由姿态、表情、光照等少数几个因素决定的、维度低得多的流形上。

AI模型,特别是像自编码器(Autoencoder)和生成对抗网络(GAN)这样的生成模型,其核心任务之一就是学习这个流形的结构。它们试图找到一个从低维“潜空间”(Latent Space)到高维数据空间的映射。一旦学到了这个映射,模型就可以通过在潜空间中采样和插值,来生成全新的、逼真的数据。视频生成模型(如Veo)可以被看作是学习了一个动态的流形,这个流形描述了世界状态随时间演变的轨迹。

A.2 蒙特卡洛树搜索 (MCTS)

MCTS是AlphaGo成功的关键算法之一,它是一种用于在巨大搜索空间中做决策的启发式搜索算法。它通过构建一棵搜索树来平衡“探索”(Exploitation,在已知的好选择上深挖)和“利用”(Exploration,尝试新的、未知的选择)。MCTS包含四个主要步骤:

  1. 选择 (Selection): 从根节点开始,根据UCT(Upper Confidence Bound for Trees)公式,递归地选择子节点,直到达到一个叶节点。UCT公式会倾向于选择那些胜率高(利用)且被访问次数少(探索)的节点。
  2. 扩展 (Expansion): 如果叶节点不是终止状态,就创建一个或多个新的子节点。
  3. 模拟 (Simulation): 从新扩展的节点开始,进行一次快速的、随机的“走棋”(rollout),直到游戏结束,得到一个胜负结果。
  4. 反向传播 (Backpropagation): 将模拟的结果(赢或输)沿着路径传回根节点,更新路径上所有节点的访问次数和胜率统计。

通过成千上万次的循环,MCTS能够逐渐构建出一个非对称的搜索树,将计算资源集中在最有希望的棋局变化上,从而做出高质量的决策。

A.3 具身智能 vs. 被动观察

“具身智能”强调智能体需要一个物理身体,并通过与环境的实时互动来学习。这个理论认为,许多抽象概念(如“重”、“软”、“推”)的意义,根植于身体的感知和运动经验中。例如,不亲自推一个箱子,很难真正理解“推”这个动作所涉及的力量、摩擦和平衡。

然而,大型语言模型和视频生成模型的崛起,对这一理论的绝对性提出了挑战。这些模型没有身体,只能被动地接收海量文本和图像数据。但它们依然展现出了惊人的“常识”推理和物理世界模拟能力。这表明,数据中的统计规律本身可能就包含了足够丰富的信息,足以让模型推断出世界的结构和动态,即使没有亲身经历。未来的研究可能会发现,具身智能和被动观察是通往智能的两种互补而非互斥的路径。具身交互提供了因果干预的宝贵数据,而被动观察则提供了无与伦比的数据广度和规模。