Release Notes 对谈|完整中文字幕整理
LOGAN KILPATRICK: 今天我们邀请到了 Google DeepMind 的首席执行官 Demis Hassabis。
DEMIS HASSABIS: 我们几乎是每天都会发布一些东西。即便在内部,也很难完全跟得上节奏。
LOGAN KILPATRICK: 我感觉我们最近发布了很多东西——Deep Think、IMO 金牌、Genie 3,而且反馈非常震撼。
DEMIS HASSABIS: 我们想要构建我们称之为“世界模型”的东西,也就是一个能够真正理解世界物理规律的模型。
LOGAN KILPATRICK: 把技术造出来,然后真的放到用户手里,这种结合太美妙了。
DEMIS HASSABIS: 我们开始看到这些模型在趋同,汇聚成我们称之为“全能(omni)模型”的方向——一个能做所有事情的模型。
LOGAN KILPATRICK: 我们还宣布了与 Kaggle 的合作,上线了 Game Arena。
DEMIS HASSABIS: 顾名思义,最强的模型会被放在一起对战。随着模型变强,测试会自动变难。我认为这只是我们在逼近 AGI 的过程中将需要的众多新基准之一。这是一个令人难以置信又令人兴奋的行业时刻。
[音乐响起]
LOGAN KILPATRICK: 大家好,欢迎回到《Release Notes》。我是来自 Google DeepMind 团队的 Logan Kilpatrick。今天我们将与 Google DeepMind 的首席执行官 Demis Hassabis 聊聊。Demis,非常感谢你的到来。很高兴能聊聊过去几个月我们在发布和进展上的一切。
DEMIS HASSABIS: 很高兴来到这里。
LOGAN KILPATRICK: 我们先从前所未有的“势头”说起吧。我感觉我们正在发布很多东西——Deep Think、IMO 金牌、Genie 3,外界的反响非常惊人。还有差不多过去两个月里我们发布的另外大约 50 件事,因为节奏太快,我感觉我们都快忘了。我想听听你对这种进展和势头的总体看法。
DEMIS HASSABIS: 是的,看到这一切真的很棒。过去几年里,我们一直在为当前这种发布速度和进展积蓄力量。我觉得你现在看到的是这些努力的结果。这是行业中令人惊叹又令人兴奋的时刻。似乎每天都有新东西出来。我们基本上每天都会发布点什么。即便是在内部,想完全跟上都很难,更不用说整个领域了。所以看到这些真的很令人兴奋。我对我们最近的一些工作感到非常自豪和满意。
LOGAN KILPATRICK: 具体谈谈 Deep Think 你是怎么想的?我最兴奋的一点是模型实际上已经可用——IMO Gold 的一个版本已经向 Gemini App 订阅用户开放。人们真的可以上手体验这个模型。这一点在历史上并不常见——我们之前聊过 Genie。我觉得把技术造出来、并且真正放到用户手里,这种结合太美妙了。站在 Deep Think 的角度,你怎么思考它?
DEMIS HASSABIS: 我认为“思考型模型”的出现,某种程度上是对我们早期在游戏上的工作(比如 AlphaGo、AlphaZero)的呼应。从 DeepMind 创立伊始,我们的研究历史一直围绕“基于智能体(agent-based)的系统”。所谓的智能体系统,就是能够完成一整个任务的系统——在早期,主要是把一款游戏下得(或玩得)非常好。那里有明确的目标。你有一个模型。如今我们有非常强大的多模态模型,能够建模语言与我们周围的一切。而在当年,我们有的是游戏模型;然后你需要在其之上加入一些“思考/规划/推理”的能力。这显然是通往 AGI 的路径。一旦你具备了“思考”,就能进行“深度思考”,甚至是“极深的思考”,接着能进行并行的规划——把若干条思路并行展开,然后收敛到最佳方案,再做决定,进入下一个阶段。这里面仍有不少创新空间,但即便只看“思考”这一部分,现在的进展速度也令人兴奋。显然,对于数学、编程、科学问题,乃至游戏场景,你都需要处理、规划,进行这种“思考”,而不能只是输出模型冒出的第一个念头,那往往不够好。你希望回过头来反思并优化自己的思考过程——这实际上就是“思考型系统”在做的事情。
LOGAN KILPATRICK: 是啊。我之前没看过《The Thinking Game》,大概一个半星期前看了,边看边疯狂做笔记。我当时在想:等等,Demis 和 DeepMind 团队在这些事情上走在更前面。还有许多非常有趣的相似之处:当年你们尝试把强化学习(RL)规模化去解决以往问题时,和今天的样貌有诸多呼应。比如 AlphaFold 的数据瓶颈就是个好例子。今天我们在一些领域特定任务(比如编程,或科学领域之外的任务)上也面临类似的“需要人类专家数据”的问题。现在当我们用大语言模型在其他领域规模化推进时,这会不会让你有“似曾相识”的感觉?
DEMIS HASSABIS: 我觉得很清楚的一点是:我们一直走在正确的路线。我们基本上是最早认真使用 RL 的团队之一。这是 2010 年我们做出的早期关键押注之一,另一个就是深度学习。当然,我们的 Atari 工作是第一个里程碑成果——第一个真正能做出有趣且有用事情的深度强化学习系统:仅凭屏幕像素就能把 1970 年代的 Atari 游戏玩到超过任何人类水平,更重要的是“泛化”,即开箱即玩任何 Atari 游戏。这真的让整个领域确信:这些新技术已经准备好被规模化并且能产生实际价值。我们一直是这样在思考。对于“思考”这件事,如果你像我一样很小就下棋,那你关注的就是如何改进自己的思维过程:你的思维过程是如何运作的?这会让我进一步思考神经科学——大脑如何工作;再进一步就是把 AI 作为一件了不起的科学工具,并尝试把“智能”凝练为一种数字化的“工艺品(artifact)”。当然前路还很长。我们今天的系统在一些事情上做得很好,但在另一些相对简单的事情上仍然会犯错。所以它们既令人印象深刻——例如能在 IMO 拿到金牌,这真的不可思议,尤其是它们仅从自然语言描述出发。而且顺带说一句,这些只是带有 Deep Think、加了一点额外思考的 Gemini 模型,并不是为这些测试专门定制的;但表现已经非常好。另一方面,它们在高中数学、简单逻辑问题、或某些以特定方式提出的小游戏上仍会犯简单错误。这说明还有某些东西缺失。也就是说,目前的智能还是“参差不齐(jagged intelligence)”的:在某些维度上非常强,但在另一些维度上很容易暴露出弱点。
LOGAN KILPATRICK: 我想回到这个话题。不过在此之前,我们能不能“点开讲讲” Genie 3?这里也有个有趣的过渡:模型并不善于玩游戏。可是我看到大家对 Genie 3 的评论,反应几乎是“震惊”。有人说“我们活在模拟里”,认为这证明了一切皆有可能,因为 Genie 的演示太强了。这也与“通过游戏解决 RL”相关。回头看、再对照如今的 Genie 3 时刻,你觉得它的发展是否如你当初的预期?对我来说并不显然:让模型擅长玩游戏,会自然通向我们今天所说的“世界模型”。
DEMIS HASSABIS: Genie 其实是若干研究分支和想法的汇聚。一方面,我们一直把棋类当作一个具有挑战性的领域来提升算法想法;另一方面,我们长期使用电子游戏,既作为挑战,也用来合成数据。我们过去、现在都在使用大量的模拟环境——非常逼真的、传统上由 3D 引擎构建的环境——来为系统创造更多训练数据,让它们理解物理世界。原因是我们想构建所谓的“世界模型”,也就是能真正理解世界物理规律的模型:物理结构、事物如何运作、材料、液体,甚至是有生命体(动物、人类)的行为。这显然是我们世界的关键部分。我们不只是活在语言和数学里,我们存在于一个物理世界之中。AGI 显然需要理解物理世界,部分原因是它要能在物理世界中操作——无论是机器人(这正是机器人被卡住的地方,它需要一个世界模型),还是像 Project Astra、Gemini Live 那样的“通用助手”,存在于你的手机或眼镜上,帮助你处理日常生活。显然,那也需要理解你所处的时空上下文。要真正理解世界、理解其运作,你就需要一个世界模型。证明你拥有一个好的世界模型的方式之一,就是能够生成这个世界。检验世界模型的有效性和深度的方法很多,但一个很棒的方法就是“反向”生成世界的某些现象:比如打开水龙头会有水流出来、镜子里能看到自己,诸如此类。Genie 正是在往这个方向走:先构建世界模型,再把它表达出来,真正能够生成自洽的世界。Genie 3 最令人惊讶的一点是:你移开视线、再看回来,那个世界的一部分还是保持着你离开时的状态。这简直令人震撼。这表明它对“世界如何运作”有一个非常好的底层模型。
LOGAN KILPATRICK: 你觉得大家会如何使用 Genie?我们是否主要是拿它来帮助让 Gemini 和我们的其他机器人计划更好、并把规模做起来?还是你觉得它本身也会有……当然大家也会拿它来玩——但你觉得还有其他……
DEMIS HASSABIS: 这在多个维度上都非常令人兴奋。第一,我们已经在用它来做训练。我们有一个会玩游戏的智能体,叫 SIMA(Simulated Agent,模拟智能体),它可以直接上手操作并玩现有的电子游戏——有的玩得好,有的还不够好。但有趣的是,你可以把这个 SIMA 放进 Genie 3 里——相当于一个 AI 在另一个 AI 的“心智”里玩游戏,想想都很疯狂。SIMA 负责决定执行哪些动作、追求什么目标(比如“去房间里找到那把钥匙”),它会像玩普通游戏那样发出控制指令;而另一端则是 Genie 3 在实时生成世界。一个 AI 在生成一个世界,另一个 AI 在那个世界里行动。这显然非常适合创造“无限量”的训练数据。我能想象它对机器人训练、以及我们通用 AGI 系统的训练非常有用。当然,它在应用层面也有巨大的潜力,比如互动娱乐的未来。我有很多关于下一代“难以置信”的游戏的想法,甚至是我们以前不曾设想过的新型娱乐形态——介于电影与游戏之间的一种新类型。最后,也是从科学家的角度看,也许最有趣的一点是:这能告诉我们关于真实世界、物理学,甚至“模拟理论”的什么?当你在深夜做这项研究、在生成整个世界、思考这项技术如何运作时,你很难不去思考:现实世界里发生的到底是什么?现实的本质是什么?这实际上是贯穿我职业生涯的驱动力:把 AI 作为科学的强大工具。我认为像 Veo 3(我们的视频-音频模型)和 Genie 3,若换一个角度去看,它们确实在向我们揭示“现实的本质”。
LOGAN KILPATRICK: 我非常喜欢这个说法。我觉得这也正好过渡到你刚才提到的“参差智能”。一方面,我们有一个令人震撼的系统,能够生成世界、做这些不可思议的事;另一方面,你把 Gemini 拿出来,让它下棋。就像我在镜头外说的,我很菜,我只会走棋,但并不擅长。可我觉得我现在能赢我们的模型。有时模型甚至连规则都遵守不好。于是我们也宣布了与 Kaggle 合作推出 GDM 的 Game Arena,让模型有一个地方可以玩各式各样的游戏,测试它们的能力。你怎么看?
DEMIS HASSABIS: 这很有意思。这其实关联到一个更广的主题:如今我们所有的系统——我们的 Gemini,乃至友商的系统——都在越来越强。系统能做一些惊人的事:从文本提示生成模拟世界、理解视频、解数学题、在科学上做事情。但我想大家直觉上都知道:我们都和这些聊天机器人打过交道,很容易就能摸到它们能力的边界。在我看来,系统距离“完全的 AGI”还缺一份“稳定一致性”。普通人不应该这么轻易就能找到系统的一个“微不足道的小漏洞”。以前常用来考的题是“strawberry 里有几个 R”,我觉得这个我们已经解决了。但还有一些挺琐碎的问题,小学生都能轻松搞定,系统却还不行。为什么?也许是在推理、规划、记忆方面还缺一些能力,除了继续扩展规模之外,可能还需要一两项新的创新。同时,也可能是我们需要更好的“基准”,把系统擅长与不擅长之处更好地区分出来。这些系统(包括 Gemini)都非常通用,但很多我们在用的基准已经开始“打满分”了。比如一些标准的数学基准,如 AIME。Deep Think 的最新结果是 99.2%,已经进入“报酬极其递减”的区域,测试本身可能都有误差了。所以这些基准在迅速被打满。我们需要更新、更难的基准;在我看来,也需要“更宽”的基准:包括世界物理与直觉物理之类的东西,这些是我们人类理所当然、觉得简单的“物理智能”问题,但我们并没有很好的基准去衡量它们。再比如一些安全性基准,用来测试我们不希望看到的特征,比如“欺骗”等。我觉得在创造“有意义的基准”上有大量工作可以做,这些基准要能够测试更复杂、更加微妙的能力,而不是今天这种以“学校考试”为主的粗犷评测。这就是我为什么对 Game Arena 如此兴奋。某种程度上它让我们回到了初心,这也是我们提出它的原因之一。当初我们从游戏起步的很多理由,今天依然成立。首先,游戏是非常干净的测试场。你能拿到 Elo 分、能很容易拿到分数,度量非常客观,不需要做 A/B 测试请人类打分。从这个意义上说,它非常“科学”。其次,它会随着系统能力自动扩展,因为系统彼此在锦标赛里对弈。即便以当前水平,这已经挺好看了。这也是“Game Arena”这个名字的寓意:把最强的模型放在一起对战。我们希望这会推动大量进步。如今没有哪个 AI 系统真的擅长游戏,不仅是国际象棋,更简单的游戏也一样。这本身就是个有趣的问题——为什么会这样?我相信既然我们有了一个度量它们的方式(Game Arena),接下来它们会迅速变强。随着它们变强,测试也会自动变难。你不需要像 AIME 或 GPQA 那样不断出更难的题、也不必担心谁来出题、题目是否已经在互联网上泄露。每一盘对局都是独一无二的,因为它来自于两名对手实时博弈。这种“独特性”也非常适合做测试。最后,就像我们早期的游戏工作一样,随着系统变强,你可以往 Game Arena 里不断加入更复杂的游戏。我们从国际象棋开始,显而易见,它是经典项目,也对我个人意义非凡。但我们的目标是把它扩展到成千上万种游戏。然后你会获得一个“总体分数”。我们并不是在寻找只把某一个游戏玩得很好的系统,而是要在所有游戏上都达到不错水平的系统。这里既包括电子游戏,也包括棋类。更有趣的是,将来也许 AI 系统应该会自己发明新游戏,然后教给其他 AI 去学——一种以前从未存在过的游戏,这样就不可能在训练数据上“过拟合”。我有很多类似“多智能体环境”的点子,最终都可能进入 Game Arena。我认为它会成为一个重要且持久的基准。当然,在我们逐步接近 AGI 的过程中,它可能只是众多新基准之一,帮助我们确保“认知能力空间”被更充分地覆盖。
LOGAN KILPATRICK: 我最近有一个感受,想听听你的回应:当我越来越多地思考“评测(evals)”,我发现人生中的大部分问题其实都是“评测问题”。除非你在做 AI、在训练模型,否则不会这么想。我不会。但比如“工作绩效”就是一个评测问题。你怎么衡量很多事情,其实都是“评测问题”。Game Arena 的好处是它有实证的“真值”:系统在一堆约束下竞争。但当我们把视角延展到游戏之外时,我能想象这些“真值”会消失。比如我们如何为人类日常任务构建 RL 环境?这会变得很难,因为“真值”从何而来?对非游戏环境,我们该如何开始捕捉这些东西?
DEMIS HASSABIS: 这一直是强化学习的难点:在更“凌乱”、更“贴近现实”的领域,如何指定“奖励函数”或“目标函数”?在我们的世界、也在人类看来,我们并没有单一的目标函数。现实是很凌乱的。如果我问你:你今天在优化什么?你每天可能都会给出不同的答案。我们是“多目标”的,并且会根据其他状态(比如你的情绪状态、物理环境、你所处的职业阶段等)不断调整这些目标之间的权重。但不管怎样,我们的大脑总能“摸着石头过河”,大致找到正确的“北极星”。我认为我们的通用系统也必须学会这样做:去揣摩用户试图达成什么,然后把它转化为一组有用的奖励函数去优化。这里有很多关于“元认知”或“元 RL”的实验:在主系统之上再放一个系统,试图为下层系统推导出应当优化的奖励函数。这些依然是处在研究阶段的问题。十年前我们在 AlphaGo、AlphaZero 的游戏研究中就琢磨过这些问题,我觉得这些课题现在会重新“回潮”。
LOGAN KILPATRICK: 我觉得我们应该现在就做,因为十年前 DeepMind 做的事情,现在基本就是大家最前沿在追的方向。回到“思考”这个趋势,也与“游戏”相关。历史上我们有许多“扩展维度”:预训练规模、后训练规模、数据规模、算力规模。然后是“推理/思考”的规模化——Deep Think 很大程度上就是靠“推理规模化”实现的。现在“工具”看起来成为了新的“扩展维度”。当你给模型更多、更强、不同的工具,它们就能做更多事情。把这个新维度放到我们关于游戏、模拟 RL 环境的世界观里,你怎么看?有没有一种形态是我们给模型一个“物理模拟器”,把它当作工具来用?
DEMIS HASSABIS: 我认为“工具使用”是 AI 系统最重要的能力之一。“思考”之所以变得重要,其中一个原因是:系统可以在“思考过程中”调用工具。你可以调用搜索、可以用数学程序、可以写点代码再回来更新你的规划。我觉得这方面目前还相当初级,但一旦它真正可靠、系统强大到能够非常稳定地使用复杂工具时,这会变得极其强大。接下来一个有趣的问题是:什么该作为“工具”留在系统外,什么该被“塞回到主系统(主脑)里”?对人类来说很简单,因为我们受物理限制:不在我们身体里的就是工具,大脑和工具泾渭分明。但在数字系统里,这条界限会变得模糊。比如“下棋”的能力,是应该放到主模型里,还是直接把 Stockfish 或 AlphaZero 当成工具调用?而且工具本身也可以是 AI 系统,不一定是某段软件。它可以是 AlphaFold 之类的系统。关键问题在于:这个能力是否会“抬升其他能力”。比如数学和编程,我们会放进主模型(Gemini 主模型),因为它们似乎能“抬升全部能力的水位”。如果你擅长编程、擅长数学,你的推理能力往往在各方面都会更好。我怀疑国际象棋之类也有类似的效应。另一方面,你又不希望在通用模型里放入过多“专门化”的数据,因为这可能伤害其他方面的能力。这很大程度上是一个“经验问题”:把该能力放进主模型是否会帮助其他能力?如果有帮助,那就做;如果会伤害通用能力,那就考虑把它当作工具。
LOGAN KILPATRICK: 开发者们总有一个问题:从“开发者”视角(基于我们模型搭建应用的人)看,很清楚——你刚也说了——模型在“推理”时会调用工具,做很多事。过去模型就像一坨“权重”:你给一个 token,它吐一个 token。现在模型本身更像一个“完整系统”。人们在模型之上构建应用的方式也在改变,因为模型“开箱即用”地帮你做更多事。你是否认同这种从“权重”到“系统”的转变,并且它会持续下去?对正在构建产品的人,有没有什么建议?比如:哪些该做成“工具”,哪些会被模型“开箱即用”地原生具备?
DEMIS HASSABIS: 你说得对,模型在快速提升。随着它们获得“工具使用”的能力,再叠加上“规划与思考”,系统可能做到的事情会“指数级”增加。因为它可以以新颖的方式、以全新的组合去调配工具。你可以思考一个方向:哪些工具会对 AI 特别有用?那就先去构建、并向外提供这些工具。我觉得这里潜力很大。即便拥有“工具使用”,智能体本身也未必就能构成一个完整产品。产品之上仍需要大量“产品化工作”。难点在于,我之前讲过:在这个新世界里,产品经理或产品设计师需要非常有趣的“复合技能”。如果你的产品一年后要发布,那你必须足够“贴近技术前沿”、理解技术,才能“在一年后的技术节点评到位”,并据此进行产品设计。你给产品做的所有“打磨”,它都必须允许“引擎”在底层被随时拔掉、随时换上一个“更先进的系统”。因为每 3 到 6 个月就会有更强的新系统出来——也许甚至更快。
LOGAN KILPATRICK: 现在感觉像是每两周就有一次。
DEMIS HASSABIS: 对吧?感觉更快。是的,现在感觉像是每两周一次。所以你必须把这点纳入考量。我不觉得这种节奏会改变。向前看,整个 Web 生态、App 的运作方式等,可能都会因为“智能体使用这些系统并把它们当作工具”而发生变化。
LOGAN KILPATRICK: 很有道理。Genie 3 的进展太惊人了,人们快要被当前这个系统“惊掉下巴”。我也会继续“推动你”:我们怎样把这个模型让更多人能用上?希望这很快会实现;很多人都很激动。我相信你也收到了很多人的消息:我该如何用这个模型?从“世界模型/Genie”的角度,接下来我们会走向哪里?
DEMIS HASSABIS: 当然,我们现在正努力把它做得更高效,好让成千上万的人能用上。它目前处于限制预览阶段。我们也在思考“如何以最佳用户体验来发布它”。我们希望人们可以相互分享自己的创作,允许大家去体验他人的创作、给好的作品“投票”等,形成一种“用户共创的社区”。但有趣的是:如何维护“一致性”。也许你某一刻“灵光乍现”,用一个很棒的提示词造出了一个非常吸引人的世界。我们如何确保后来的玩家也能“复现”那个世界、亲身体验?围绕这个我们还有很多思考。很快会有更多信息发布。总体来看,如果你把 Genie、Veo、Gemini 放在一起看——它们现在还是独立的模型,但我们开始看到它们在向一个方向收敛,汇聚成我们所说的“全能(omni)模型”,也就是一个“什么都能做”的模型。我们认为这就是 AGI 系统应有的样子:把这些不同维度都处理到同等质量水平,像今天各个“专门模型”那样强,但最终可能融合在一个更大的模型里。
LOGAN KILPATRICK: 我们在镜头外还开玩笑说了很多关于下棋的事,这也算是个好借口让我们去玩游戏。我觉得 Genie 也是个好借口,让我们可以自己做游戏、自己玩。
DEMIS HASSABIS: 是的,正是如此。
LOGAN KILPATRICK: 然后 DeepMind 变成一家电子游戏公司。
DEMIS HASSABIS: 这是我一直的“秘密计划”:也许在 AGI 安全落地之后,回过头用这些工具去做“史上最伟大的游戏”。那将是梦想成真。
LOGAN KILPATRICK: 会是过山车模拟器吗?
DEMIS HASSABIS: 也许是《主题公园(Theme Park)》的“究极版本”。不过我脑子里还有一些更宏大的游戏点子。
LOGAN KILPATRICK: 我们正在 AI Studio 里做一堆“vibe coding”的东西。理想状态是:在 AGI 之前,你就可以不断把这些点子“打包发射”,我们拥有一整个“Demis Game Arena”,由你亲自打造。
DEMIS HASSABIS: 是的,我们很想试试。这绝对在我待办清单的最顶端。
LOGAN KILPATRICK: 还有件事——上周还是上上周,我们还在社交媒体上互动,庆祝我们每月 980 万亿 tokens 的里程碑。我想我们已经跨过“一千万亿(quadrillion)”了,所以我们特地为你准备了一点小礼物。
DEMIS HASSABIS:(笑)
LOGAN KILPATRICK: 采用你标志性的“深蓝色”。
DEMIS HASSABIS: 太感谢了。太棒了,太棒了。
LOGAN KILPATRICK: 我们也会做一些这个的“衍生品”。
DEMIS HASSABIS: 非常感谢。
LOGAN KILPATRICK: 当然,应该的。
LOGAN KILPATRICK: Demis,这次聊天非常愉快。
DEMIS HASSABIS: 谢谢。
LOGAN KILPATRICK: 感谢你抽出时间坐下来聊聊。也感谢你和整个 DeepMind 团队为“构想未来”熬的每一个深夜,付出的每一份努力。这次对谈很愉快。
DEMIS HASSABIS: 很高兴聊天。谢谢。
LOGAN KILPATRICK: 我也一样。谢谢大家收看《Release Notes》,下一期再见。
[音乐响起]