一个AI模型如何建立对其环境的物理直觉

V-JEPA系统使用普通视频来理解真实世界的物理规律。

当面对不符合物理规律的场景时,该模型表现出一种“惊讶”的概念。

作者:Kristina Armitage/Quanta Magazine

引言

作者:Anil Ananthaswamy,特约撰稿人

2025年10月3日

这里有一个针对婴儿的测试:给他们看桌上的一个水杯。用一块木板把它藏起来。现在将木板移向水杯。如果木板继续移动,越过了水杯所在的位置,好像水杯不存在一样,他们会感到惊讶吗?许多6个月大的婴儿会,而到了一岁时,几乎所有的孩子都通过观察,学会了物体持久性的直觉概念。现在,一些人工智能模型也做到了。

引言解读 (第一段):

这篇文章的开头用了一个非常经典的心理学实验——“物体恒存性”实验——来打比方。想象一下,你跟一个小宝宝玩“躲猫猫”,你用手把脸遮住,小宝宝可能会以为你真的消失了。但大一点的孩子就知道,你的脸还在手后面。这个“知道东西没消失,只是被挡住了”的常识,就是“物体持久性”或“物体恒存性”。这是我们理解世界最基本的物理直觉之一。

作者告诉我们,科学家们现在开发出了一种人工智能(AI),它也能像人类婴儿一样,通过看视频,自己“悟”出这种物理直觉。这个AI不再需要人类程序员一条一条地告诉它“物体是实心的”、“东西不会凭空消失”这些规则,它能自己学会。

研究人员开发了一个AI系统,它通过视频来学习世界,并在面对违背其所学知识的信息时,表现出一种“惊讶”的概念。

引言解读 (第二段):

这里进一步解释了这个AI的特别之处。它的学习方式非常像人,就是“观察世界”。它看的“世界”就是大量的视频。更酷的是,它还能表达“惊讶”。当然,AI没有感情,它的“惊讶”是一种技术上的表现:当视频里的情况和它根据物理规律预测的不一样时(比如一个球滚到墙后面,却没有从另一边出来),它的内部数据就会出现一个强烈的“预测错误”信号。这个信号就相当于人类的“哎?这不对劲!”的感觉。这说明AI不仅仅是记住了画面,而是真正形成了一套对物理世界如何运作的“预期”或“模型”。

这个由Meta公司创建的模型,名为视频联合嵌入预测架构(Video Joint Embedding Predictive Architecture,简称V-JEPA),它不对视频中包含的世界物理规律做任何预设。尽管如此,它仍能开始理解世界是如何运作的。

引言解读 (第三段):

这里正式介绍了今天的主角——V-JEPA模型。它的全称很长,但关键在于它的学习方法。它是一个“白板”学生,你不需要提前给它灌输任何物理公式,比如$F=ma$或者万有引力定律。它完全是从零开始,像一个新生儿一样,通过纯粹的观察(看视频)来自己总结规律。这种“无监督学习”的能力,是当前AI研究的一个重要方向,因为它更接近生物智能的学习方式。

“他们的主张,从理论上讲,非常合理,而且结果也非常有趣,”阿姆斯特丹大学的认知科学家Micha Heilbron说道,他研究大脑和人工智能系统如何理解世界。

引言解读 (第四段):

这里引用了一位专家的评价,来增加文章的权威性。这位认知科学家的意思是,V-JEPA这个研究的思路是靠谱的,并且取得的成果让人眼前一亮。这暗示了V-JEPA可能在模拟人类认知方面取得了重要突破。

更高层次的抽象

正如构建自动驾驶汽车的工程师所知,让一个AI系统可靠地理解它所看到的东西可能很困难。大多数旨在“理解”视频以对其内容进行分类(例如,“一个人在打网球”)或识别物体轮廓(比如,前方的一辆车)的系统,都在所谓的“像素空间”中工作。该模型基本上将视频中的每个像素都视为同等重要。

更高层次的抽象 解读 (第一段):

这一段开始解释传统AI看视频的方法有什么问题。想象一下,你看一张照片,你会立刻认出里面有“人”、“车”、“树”。但传统的AI看这张照片,看到的是什么呢?是一大堆密密麻麻的像素点,比如“左上角第1个点是红色,第2个点是深红色……”。这就是在“像素空间”工作。它的问题是“一叶障目,不见泰山”。AI会关注每一个像素点的颜色变化,但很难抓住“这是一辆正在行驶的汽车”这样宏观、关键的信息。

但这些像素空间模型有其局限性。想象一下试图理解一个郊区街道的场景。如果场景中有汽车、交通灯和树木,模型可能会过分关注无关的细节,比如树叶的运动。它可能会忽略交通灯的颜色,或者附近汽车的位置。“当你处理图像或视频时,你不想在[像素]空间工作,因为有太多你不想建模的细节,”布朗大学的计算机科学家Randall Balestriero说。

更高层次的抽象 解读 (第二段):

这里用了一个具体的例子来说明“像素空间”模型的缺点。对于自动驾驶AI来说,最重要的是什么?是“交通灯是红色”和“旁边的车在靠近”。至于“路边的树叶在随风飘动”,这个信息完全不重要。但像素空间模型分不清主次,它可能会花费大量的计算资源去分析树叶的精细动态,反而忽略了决定生死的关键信息。这就好比一个学生考试,花了大部分时间去欣赏试卷的印刷质量,却没时间答题。我们需要AI学会“抓重点”,而不是处理所有细枝末节。

纽约大学的计算机科学家、Meta公司AI研究总监Yann LeCun于2022年创建了JEPA,这是V-JEPA的前身,用于处理静态图像。

更高层次的抽象 解读 (第三段):

这里提到了这项技术的“祖师爷”——Yann LeCun,他是人工智能领域的大牛,也是图灵奖得主。这说明V-JEPA技术师出名门,是建立在坚实的研究基础之上的。它最早的版本是用来处理静态图片(JEPA)的,现在升级到了处理视频(V-JEPA)。

于2024年发布的V-JEPA架构旨在避免这些问题。虽然构成V-JEPA的各种人工神经网络的具体细节很复杂,但基本概念很简单。

更高层次的抽象 解读 (第四段):

这里开始介绍V-JEPA的核心思想。作者先给我们吃了一颗定心丸:虽然内部实现很复杂,但它的核心原理并不难懂。这预示着下面会有一个通俗的解释。

普通的像素空间系统会经历一个训练过程,其中涉及到遮蔽视频帧中的一些像素,并训练神经网络来预测那些被遮蔽像素的值。V-JEPA也会遮蔽视频帧的一部分。但它不是在单个像素的层面上预测被遮蔽区域后面是什么。相反,它使用更高层次的抽象,或称“潜在”表示,来模拟内容。

更高层次的抽象 解读 (第五段):

这一段是理解V-JEPA的关键。它和传统方法的共同点是,都会玩一个“看图填空”的游戏。想象一下,给AI看一张猫的照片,然后把猫的耳朵部分挖掉,让AI去“猜”被挖掉的部分是什么。传统方法(像素空间)会一个像素一个像素地去猜颜色,试图把耳朵“画”出来。而V-JEPA不一样,它不去猜具体的像素,而是去预测更高层次的“概念”。它不会想“这里应该填一个浅粉色的像素”,而是想“这里应该是一个‘猫耳朵’的概念”。这个“猫耳朵”的概念,就是所谓的“更高层次的抽象”或“潜在表示”。

潜在表示只捕捉数据的基本细节。例如,给定各种圆柱体的线条画,一个名为编码器的神经网络可以学会将每个图像转换为代表每个圆柱体基本方面的数字,例如其高度、宽度、方向和位置。通过这样做,包含在成百上千个像素中的信息被转换成少数几个数字——即潜在表示。然后,一个名为解码器的独立神经网络学会将圆柱体的基本细节转换回圆柱体的图像。

更高层次的抽象 解读 (第六段):

这里用一个例子解释了什么是“潜在表示”(Latent Representation)。想象一下,给你一张圆柱体的图片,这张图片可能包含了几万个像素。但要描述这个圆柱体,你真的需要所有像素信息吗?不需要。你只需要几个关键参数:高度、半径、它在空间里的位置和朝向。这几个关键参数,就是这张图片关于圆柱体的“潜在表示”。

AI里的“编码器”(Encoder)就像一个“信息压缩机”,它负责把一张充满像素的图片,压缩成这几个关键的、描述本质的数字。而“解码器”(Decoder)则像一个“信息解压器”,它可以根据这几个数字,再把圆柱体的图像大致画出来。V-JEPA的核心,就是在这种高度压缩、只包含核心信息的“潜在空间”里进行思考和预测,从而避免了像素细节的干扰。

V-JEPA专注于创建和再现潜在表示。在宏观层面上,该架构分为三部分:编码器1,编码器2,以及一个预测器。首先,训练算法取一组视频帧,在所有帧中遮蔽同一组像素,然后将这些帧输入编码器1。有时,视频的最后几帧会被完全遮蔽。编码器1将这些被遮蔽的帧转换为潜在表示。该算法同时也将未被遮蔽的完整帧输入编码器2,后者将它们转换为另一组潜在表示。

更高层次的抽象 解读 (第七段):

这里开始介绍V-JEPA的具体工作流程,它有三个主要部件:两个“信息压缩机”(编码器1和编码器2)和一个“预言家”(预测器)。

它的训练过程是这样的:

  1. 拿一段视频,比如一个球从左滚到右。
  2. 把视频的后半部分(球滚到右边的画面)用马赛克遮住。
  3. 把这段“残缺”的视频(只有前半段清晰)喂给“压缩机1号”,让它提取出核心信息(比如“一个球在向右运动”)。
  4. 同时,把“完整”的视频(从头到尾都清晰)喂给“压缩机2号”,让它也提取出核心信息(比如“一个球最终到达了右边”)。

现在,我们就有了两份关于视频核心信息的“摘要”:一份来自残缺视频,一份来自完整视频。

现在预测器开始发挥作用。它使用由编码器1产生的潜在表示来预测编码器2的输出。本质上,它从被遮蔽的帧生成的潜在表示出发,来预测由未被遮蔽的帧生成的潜在表示。通过重新创建相关的潜在表示,而不是早期系统所做的填补缺失的像素,模型学会了看见路上的汽车,而不是纠结于树上的叶子。

更高层次的抽象 解读 (第八段):

接上一步,现在轮到“预言家”(预测器)上场了。它的任务是:只看“压缩机1号”从残缺视频里提取出的摘要(“一个球在向右运动”),然后去预测“压缩机2号”从完整视频里提取出的摘要(“一个球最终到达了右边”)。

这个过程的目标,不是让预测器去一个像素一个像素地“画”出球在右边的样子,而是让它在“概念”层面进行预测。通过大量的这种训练,预测器就必须学会物理规律。它会明白,一个向右运动的球,如果没有东西挡住它,下一秒钟它必然会出现在更右边的位置。这样,它就学会了关注“汽车的运动轨迹”这种重要的事,而自动忽略“树叶摆动”这种无关紧要的细节。这就是“抓重点”能力的来源。

“这使得模型能够丢弃不必要的信息……并专注于视频中更重要的方面,”Meta的研究科学家Quentin Garrido说。“丢弃不必要的信息非常重要,这也是V-JEPA旨在高效完成的事情。”

更高层次的抽象 解读 (第九段):

这是来自研究人员的总结。V-JEPA成功的秘诀就在于“学会忽略”。就像一个优秀的学生,他知道哪些知识点是考试重点,哪些是次要的,从而可以高效地分配学习精力。V-JEPA通过在抽象的“潜在空间”进行预测,天然地就学会了这种能力。

一旦这个预训练阶段完成,下一步就是针对特定任务对V-JEPA进行调整,例如对图像进行分类或识别视频中描述的动作。这个适应阶段需要一些人工标记的数据。例如,视频必须被标记上其中包含的动作信息。用于最终任务的适应过程所需的标记数据,远少于将整个系统从头到尾针对特定下游任务进行训练所需的数据量。此外,同一个编码器和预测器网络可以被调整用于不同的任务。

更高层次的抽象 解读 (第十段):

这里讲的是V-JEPA的“学以致用”。前面那个看视频学物理规律的过程,叫做“预训练”,就像是给AI打好“通识教育”的基础。它现在对世界如何运作有了一个基本的理解。有了这个基础后,你再想让它做具体任务,比如“识别视频里的人是不是在打篮球”,就变得非常容易。你只需要给它看少量带有“打篮球”标签的视频,它就能很快学会。这个过程叫“微调”(fine-tune)。

这比从零开始教一个AI“什么是打篮球”要高效得多。就好比一个懂物理的人去学开车,肯定比一个对世界一无所知的人学得快。而且,这个“懂物理”的AI基础模型,可以被用来微调成各种专家,比如“篮球裁判”、“交通事故分析员”等等,通用性很强。

直觉的模仿

在二月份,V-JEPA团队报告了他们的系统在理解真实世界直观物理属性方面的表现——诸如物体持久性、形状和颜色的恒定性,以及重力和碰撞的影响。在一项名为IntPhys的测试中,该测试要求AI模型识别视频中发生的动作在物理上是可能的还是不可能的,V-JEPA的准确率接近98%。而一个著名的在像素空间进行预测的模型,其表现仅比随机猜测好一点。

直觉的模仿 解读 (第一段):

这里展示了V-JEPA的“考试成绩”。在一个专门测试AI物理直觉的“考场”(IntPhys测试集)里,V-JEPA的表现非常出色。这个考试会给AI看一些视频,有的是正常的(比如球落地后会弹起来),有的是“魔术”视频(比如球穿墙而过)。V-JEPA的任务就是判断哪个视频是“科学的”,哪个是“不科学的”。它的正确率高达98%,几乎完美。相比之下,那些还在“像素空间”里死磕的老方法,成绩惨不忍睹,跟瞎蒙差不多。这有力地证明了V-JEPA学习方法的优越性。

自主机器人需要类似物理直觉的东西,以便规划它们的运动并与物理环境互动。

直觉的模仿 解读 (第二段):

这张图和图注告诉我们这项研究的实际应用价值。比如,未来的机器人管家或者工厂里的机械臂,它们都需要有物理直觉。它得知道,一个杯子从桌上掉下去会摔碎,一个箱子是实心的不能直接穿过去。只有具备了这种常识,机器才能安全、可靠地在我们的世界里工作。

V-JEPA团队还明确地量化了当其预测与观察不符时模型所表现出的“惊讶”。他们将一个在自然视频上预训练好的V-JEPA模型,喂给它新的视频,然后用数学方法计算V-JEPA预期在视频未来帧中看到的内容与实际发生情况之间的差异。团队发现,当未来帧包含物理上不可能的事件时,预测误差会急剧上升。例如,如果一个球滚到一个遮挡物后面暂时从视野中消失,当球在未来帧中没有从物体后面再次出现时,模型会产生一个误差。这种反应类似于在婴儿身上看到的直觉反应。可以说,V-JEPA感到惊讶了。

直觉的模仿 解读 (第三段):

这里详细解释了AI的“惊讶”是如何被测量的。方法很简单:让V-JEPA不断地对视频的下一秒进行预测,然后用它的“预测”和视频的“真实情况”做对比。如果两者基本一致(比如预测球会从障碍物右边出来,结果真的出来了),那么“预测误差”就很小。但如果发生了“灵异事件”(比如球消失了),“真实情况”和AI的“预测”就会有巨大的差别,导致“预测误差”这个数值瞬间飙升。这个飙升的误差值,就被科学家们定义为AI的“惊讶程度”。这个过程,完美地用数学语言量化了一个非常主观和直觉的概念。

Heilbron对V-JEPA的能力印象深刻。“我们从发展心理学的文献中得知,婴儿不需要大量的接触就能学会这些类型的直观物理,”他说。“他们证明了这首先是可学习的,而且你不需要带着所有这些先天的先验知识来,这一点很有说服力。”

直觉的模仿 解读 (第四段):

这位专家再次出场,他从认知科学的角度肯定了这项工作的意义。人类婴儿学习物理规律的速度快得惊人,似乎我们天生就带有一些“出厂设置”(先天知识)。但V-JEPA的成功表明,即使完全从零开始,没有任何“出厂设置”,一个足够强大的学习机制也能通过观察快速掌握这些直觉。这对于理解人类智能的起源和发展,也提供了新的视角。

伦敦大学学院的计算神经科学家Karl Friston认为,在模仿“我们大脑学习和建模世界的方式”方面,V-JEPA走在了正确的轨道上。然而,它仍然缺少一些基本要素。“[当前]提议中缺少的是对不确定性的恰当编码,”他说。例如,如果过去帧中的信息不足以准确预测未来帧,那么预测就是不确定的,而V-JEPA没有量化这种不确定性。

直觉的模仿 解读 (第五段):

这里提出了一些批评和改进方向。另一位大牛科学家Karl Friston指出,V-JEPA虽然很棒,但还不够像人脑。它缺少一个关键能力:表达“我不确定”。

比如,一个球滚到了一个Y形岔路口,你不知道它会往左还是往右。一个聪明的人会说:“它可能往左,也可能往右,概率各50%。” 但目前的V-JEPA可能只会给出一个模糊的、叠加了两种可能性的预测,或者干脆就猜一个。它无法明确地告诉我们:“根据现有信息,未来有两种可能,请注意。” 这种对“不确定性”的认知和表达能力,是更高级智能的体现,也是V-JEPA未来需要努力的方向。

在六月,Meta的V-JEPA团队发布了他们下一代的12亿参数模型,V-JEPA 2,它在2200万个视频上进行了预训练。他们还将该模型应用于机器人技术:他们展示了如何仅用大约60小时的机器人数据(包括机器人的视频及其动作信息)来进一步微调一个新的预测器网络,然后使用这个微调后的模型来规划机器人的下一个动作。“这样的模型可以用来解决简单的机器人操作任务,并为这个方向的未来工作铺平了道路,”Garrido说。

直觉的模仿 解读 (第六段):

这里介绍了V-JEPA的最新进展和应用。新一代的V-JEPA 2模型更大、更强,看的视频也更多(2200万个!)。更重要的是,它已经开始走出实验室,应用到机器人身上了。通过“预训练+微调”的模式,只需要相对少量的数据,就能教会机器人完成一些简单的任务。这预示着,未来我们可能会有一个“通用物理世界大模型”,任何机器人公司都可以基于这个模型,快速地训练出能适应自己特定任务的智能机器人。

为了推动V-JEPA 2,团队设计了一个更难的直观物理理解基准测试,名为IntPhys 2。V-JEPA 2和其他模型在这些更难的测试上只比随机猜测好一点。Garrido说,一个原因是V-JEPA 2只能处理大约几秒钟的视频作为输入,并预测未来几秒钟。任何更长的时间都会被忘记。你可以再次将其与婴儿进行比较,但Garrido想到了另一种生物。“在某种意义上,这个模型的记忆力让人想起金鱼,”他说。

直觉的模仿 解读 (第七段):

文章最后指出了V-JEPA 2目前的主要局限性。虽然它在基础物理测试上表现很好,但一遇到更复杂、需要长时记忆和推理的问题,就又不行了。Garrido用了一个非常生动的比喻:它的记忆力像“金鱼”。它只能记住几秒钟前发生的事情,无法理解需要更长时间才能展现出来的因果关系(比如多米诺骨牌效应)。这说明,虽然AI在学习“物理直觉”上迈出了一大步,但要在“逻辑推理”和“长时记忆”方面达到人类水平,还有很长的路要走。这也是未来研究需要攻克的难关。