PEVA: 我们的身体如何塑造所见世界

一项关于全身姿态条件下的第一人称视频预测的研究

Yutong Bai* Danny Tran* Amir Bar Yann LeCun† Trevor Darrell† Jitendra Malik†
1. UC Berkeley (BAIR)    2. FAIR, Meta    3. New York University

引言:如果AI能"感受"自己的身体

我们人类的每一个动作——行走、倾斜、转身、伸手——都微妙而精准地塑造着我们眼中的世界。我们的第一人称视角,是身体与环境交互的直接产物。要让一个智能体(AI)像人一样思考和规划,它不仅要能预测未来,更要深刻理解:"我"的动作,将如何改变"我"的所见?

这听起来似乎理所当然,但对AI来说却是一个巨大的挑战。传统的AI模型在虚拟世界中移动,其动作指令往往非常简单,比如"向前走"或"向左转"。这就像驾驶一辆只有油门和方向盘的遥控车。但人类的动作远比这复杂得多,我们拥有一个由数百个关节和肌肉组成的、高度协调的身体。我们伸手拿杯子时,不仅仅是手臂在动,我们的躯干会微调,肩膀会转动,甚至我们的脚步也会下意识地配合。所有这些复杂的、物理上真实的动作,共同决定了我们视网膜上最终成像的样子。

我们的核心目标是:训练一个模型,我们称之为 PEVA (Predicting Ego-centric Video from human Actions),让它能根据精细的、全身的3D动作指令,来预测第一人称视角的视频。换句话说,我们想教会AI一种"虚拟的本体感觉",让它不仅知道要移动,更知道如何移动,并预见这种移动将带来的视觉变化。

为了实现这个目标,我们面临三大挑战:

  • 如何表示动作? 如何用数据描述一个复杂的全身动作,既包含身体的整体移动,又不丢失手指的精细弯曲?
  • 如何建立连接? 身体动作和视觉变化之间的关系是高度非线性的。同样是"抬手",在厨房和在花园里,看到的景象截然不同。模型如何学会这种依赖于环境的复杂映射?
  • 如何从真实世界学习? 真实的人类动作千变万化,动作与视觉结果之间可能存在延迟。如何从大规模的真实数据中,让模型有效学习到这种微妙的因果关系?

在这篇文章中,我们将带您深入了解PEVA是如何通过结构化的动作表示、创新的模型架构,以及大规模真实世界数据集,来攻克这些难题的。我们将通过一系列交互式动画,直观地展示PEVA的核心理念和强大能力。

核心理念:为AI装上"虚拟身体"

PEVA的核心思想,可以被比作教一个从未有过身体的"大脑"如何理解物理世界。我们不给它模糊的指令,而是给它一本详尽的"身体操作手册",并让它观察每次操作后世界的反应。这个过程分为三个关键步骤。

第一步:定义"动作"——从模糊指令到精确的关节运动

传统AI的动作可能是 `(向前移动0.5米, 向左旋转10度)`。这显然不足以描述人类的行为。在PEVA中,我们的"动作"是一个高维度的向量,它精确地记录了身体每一个关节的变化。

生活化类比: 想象一下控制一个提线木偶。初级玩家只能拉动"前进"或"转身"的主线。而我们要做的是成为一个宗师级的木偶师,我们可以精确控制连接到木偶每一个关节的每一根细线——肩膀旋转了多少度,手肘弯曲了多少,手腕如何翻转。我们的"动作"就是这一整套提线操作的数字化记录。

具体来说,我们使用动作捕捉设备(Xsens)记录的数据。每一个动作都表示为从上一帧到当前帧,身体骨骼姿态的变化。这包括:

  • 全局位移: 身体在空间中的整体移动,以骨盆为根节点。
  • 局部旋转: 上半身15个关键关节相对于其父关节的旋转变化(用欧拉角表示)。

通过这种方式,我们构建了一个结构化的、包含48个自由度的动作表示。这个表示方法保留了人体运动的"运动学树"结构,让模型能够同时理解"我要走向冰箱"这样的大尺度意图,和"我正在伸出右手去拉门把手"的精细操作。

动画1:结构化动作表示

这个动画模拟了PEVA如何理解"动作"。拖动右下角的控制点来移动虚拟手臂。你会看到左侧的第一人称视角随之改变,同时下方的图表会实时显示肩部和肘部关节角度的变化。这就是我们喂给PEVA的"精确指令"。

肩部旋转: 0.0°

肘部旋转: 0.0°

第二步:学习"预测"——基于Transformer的自回归扩散模型

有了精确的动作,下一步就是如何预测它带来的视觉结果。我们采用了一种名为**自回归条件扩散Transformer (Autoregressive Conditional Diffusion Transformer)** 的强大架构。这个名字很长,但我们可以把它拆解开来理解。

  • Transformer: 这是当今AI领域最强大的"模式识别器"之一。它非常擅长处理序列数据,并能理解元素之间的长距离依赖关系。在这里,它负责理解过去几帧画面之间的关联。
  • 扩散模型 (Diffusion Model): 这是目前最先进的图像生成技术之一。
    生活化类比: 想象一张清晰的照片,我们不断地给它添加微小的噪点,直到它变成一片完全随机的雪花。扩散模型就学习这个过程的"逆操作"——从一片雪花开始,逐步地、有条不紊地去除噪点,最终还原出一张清晰、逼真的图像。这个"去噪"的过程让它能生成细节丰富、质量极高的图片。
  • 条件 (Conditional): 我们的模型在"去噪"时,不是凭空想象,而是被"条件"所引导。这些条件就是:1)过去的几帧视频画面;2)我们定义的那个精确的全身"动作"。
  • 自回归 (Autoregressive): 模型一次只生成下一帧画面。然后,这新生成的一帧会成为"过去画面"的一部分,用来预测再下一帧。就像多米诺骨牌一样,一帧接一帧地生成,从而构成一段连贯的视频。

综合起来,PEVA的工作流程就像一个技艺高超的动画师:他看着前几张画稿(过去的视频帧),拿到一张写着"主角抬起右手"的指令(动作条件),然后运用他精湛的画技(扩散模型),画出下一张极其逼真的画稿(预测的下一帧)。

动画2:自回归扩散预测

这个动画演示了PEVA生成一帧视频的核心过程。给定历史帧和一个"动作"指令,模型从一个充满噪声的图像开始,在多个步骤中逐渐"去噪",最终生成清晰的下一帧。点击"开始"来观察这个神奇的"无中生有"的过程。

状态: 待开始

去噪步数: 0 / 10

第三步:高效训练——随机时间跳跃与序列级学习

真实世界中的动作和结果并非总是即时对应的。我可能现在开始弯腰,但要几秒钟后才能看到地上的物体。为了让模型学会这种长期的因果关系,同时又避免处理海量视频数据带来的巨大计算开销,我们设计了两个巧妙的训练策略。

  • 随机时间跳跃 (Random Timeskips): 在训练时,我们不是从一段30秒的视频中连续取前16帧,而是在这30秒内随机"跳跃"着采样16帧。
    生活化类比: 这就像学习一个复杂舞蹈动作,不是一帧一帧地慢放观看,而是随机看第1秒、第3秒、第8秒、第15秒...的几个关键定格画面。通过对比这些跨度很大的快照,你能更快地领悟整个动作的起承转合,而不是只关注微小的、连续的变化。
  • 序列级学习 (Sequence-Level Training): 我们不仅要求模型预测序列中的最后一帧,而是对序列中的每一帧都计算损失。这意味着模型需要同时学会从第1帧预测第2帧,从前2帧预测第3帧,以此类推。这迫使模型在整个序列的预测中都保持连贯和准确。

这两个策略的结合,让PEVA能够高效地学习到动作与视觉之间短期和长期的复杂动态关系,为生成连贯、真实的长时间视频打下了坚实基础。

动画3:随机时间跳跃采样

为了高效学习长期依赖关系,我们在训练时并不处理视频的每一帧。此动画展示了我们的"随机时间跳跃"策略。想象下面是一段32秒长的视频片段,点击"采样"按钮,模型会随机从中抽取16个时间点(帧)进行学习,从而高效地掌握动作的完整过程。

实验与发现:PEVA的能力边界

理论和模型构建完成后,我们在一系列严苛的测试中检验PEVA的真实能力。我们使用了 Nymeria 数据集,这是一个大规模、包含同步的第一人称视频和全身动作捕捉数据的真实世界数据集。所有的评估都在一个专门划分出的、模型从未见过的验证集上进行。

发现一:精细动作控制 (Atomic Actions)

首先,我们想知道PEVA是否真正理解了身体各部分的独立运动。我们将复杂的动作分解为"原子动作",比如"左手向上"、"身体向右旋转"等。然后,我们让PEVA根据这些单一的原子动作指令来生成视频。

结果令人振奋。PEVA能够清晰地生成与指令相符的视觉变化。当指令是"右手向左移动"时,我们能看到一只手从右向左划过视野;当指令是"向前走"时,画面呈现出前进的流动感。这证明了我们的模型不仅仅是在"模仿"数据,而是真正建立了特定关节运动与特定视觉结果之间的映射关系。

动画4:原子动作生成器

在这里,你可以扮演"导演",给PEVA下达简单的"原子动作"指令,看看它如何生成对应的第一人称视角。选择一个动作,然后点击"生成"来观察结果。这展示了PEVA对精细身体控制的理解能力。

发现二:长时程视频生成 (Long-Horizon Generation)

得益于自回归机制和时间跳跃训练,PEVA在生成长视频方面也表现出色。我们测试了长达16秒的视频生成。结果显示,即使在连续生成数十帧后,视频依然能保持高度的视觉真实性和逻辑连贯性,不会像一些早期模型那样出现画面崩溃或逻辑混乱的情况。下图展示了我们的模型与基线模型在视频生成质量(用FID指标衡量,越低越好)上随时间变化的对比。

图表1:视频质量随时间变化 (FID ↓)

此图表比较了PEVA与两个基线模型(DF* 和 CDiT)在生成长视频时的质量衰减情况。可以看到,随着预测时间的增加,所有模型的生成质量都会下降(FID值上升),但PEVA的曲线始终保持在最下方,表明其在长时间预测中能维持更高的视觉保真度。

发现三:反事实规划 (Counterfactual Planning)

也许PEVA最激动人心的能力,是作为"世界模型"进行规划。这意味着什么呢?我们可以用它来"想象"不同动作可能带来的未来。

生活化类比: 假设你的目标是"从冰箱里拿一瓶牛奶"。在行动之前,你会在脑海中预演:如果我向左走,会撞到墙;如果我向前走,会走到桌子旁;如果我先向前再向右转,就能到达冰箱前。PEVA让AI也能拥有这种"心理预演"的能力。

我们给模型一个初始画面和一个目标画面(例如,"拿到架子上的盒子")。然后,我们提供几个候选的动作序列。PEVA会为每一个动作序列"模拟"出它所预测的未来视频。最后,我们通过计算哪个模拟结果与目标画面最相似,来选出最优的动作序列。实验证明,PEVA能有效地排除错误动作(比如走向错误的方向),并选择出能够达成目标的正确路径。

动画5:在想象中规划

这个互动演示了PEVA如何用于规划。目标是让画面中央的"目标物体"被手"触碰"。我们提供了三个候选动作。请选择一个动作,PEVA将模拟出执行该动作后的结果。观察哪个动作能更好地达成目标(由"相似度得分"量化)。

已选择动作:

与目标相似度: --- (越高越好)

结论与未来:迈向物理具身智能

我们介绍了PEVA,一个能够根据详细的、全身3D人体动作来预测第一人称视频的模型。与以往依赖低维、抽象控制信号的工作不同,PEVA利用完整的身体姿态序列来模拟真实且可控的视觉结果。

通过在一个基于条件扩散Transformer的架构上,结合结构化的动作表示和创新的训练策略,PEVA成功地捕捉了物理运动与第一人称感知之间的复杂联系。实验证明,我们的方法在预测质量、语义一致性和精细动作控制方面,均优于强大的基线模型。

当然,这只是一个开始。我们目前的规划实验还很初步,未来的重要一步是将其扩展到更长时程的规划和闭环控制中。此外,为模型引入更高层次的任务意图或目标条件,也是一个充满潜力的研究方向。

我们相信,PEVA代表了在构建更接地气、更能理解物理世界的具身智能模型方面,迈出的坚实一步。我们希望这项工作能启发更多关于感知与行动相结合的研究,最终引领我们走向能够像人类一样在复杂现实世界中行动和交互的通用智能体。
技术细节附录

3.1 结构化动作表示

为了有效捕捉人体运动与第一人称视觉感知的关系,我们将每个动作定义为一个高维向量,该向量编码了全局身体动态和详细的关节运动。我们使用来自Xsens动作捕捉系统的数据,将每个动作 \( a_t \) 表示为从时间步 \( t \) 到 \( t+1 \) 的身体姿态变化。具体来说,\( a_t \) 包含了:

  • 根关节平移: 骨盆在3D空间中的位移 \( (\Delta x, \Delta y, \Delta z) \)。
  • 相对关节旋转: 上半身的15个关节(如肩膀、肘部、手腕等)相对于其父关节的旋转变化,每个关节用3D欧拉角 \( (\Delta \phi, \Delta \theta, \Delta \psi) \) 表示。

这使得我们的总动作维度为 \( d_{act} = 3 + 15 \times 3 = 48 \)。这种基于运动学树的结构化表示,确保了模型能够处理具有物理约束的、丰富的运动信息。

3.2 概率建模与目标函数

我们的目标是建立一个生成模型,用于捕捉给定动作序列下的环境动态。给定一个视频帧序列 \( x_0, \dots, x_T \) 及其对应的动作序列 \( a_0, \dots, a_{T-1} \),我们首先使用一个预训练的VAE编码器将每帧 \( x_t \) 映射到一个隐状态 \( s_t = \text{enc}(x_t) \)。我们希望对联合概率分布进行建模:

\[ P(s_T, \dots, s_0 | a_{T-1}, \dots, a_0) = P(s_0) \prod_{t=0}^{T-1} P(s_{t+1} | s_t, \dots, s_0, a_t, \dots, a_0) \]

为了简化模型,我们做出马尔可夫假设,即下一个状态仅依赖于过去 \( k \) 个状态和上一个动作:

\[ P(s_{t+1} | s_t, \dots, s_0, a_{T-1}, \dots, a_0) \approx P(s_{t+1} | s_t, \dots, s_{t-k+1}, a_t) \]

我们使用一个Denoising Diffusion Probabilistic Model (DDPM) 来对每个转移概率 \( P_\theta(s_{t+1} | \dots) \) 进行建模。训练的目标是最小化简化的去噪损失函数 \( \mathcal{L}_{\text{simple}} \) 和一个可选的变分下界损失 \( \mathcal{L}_{\text{vlb}} \)。对于序列中的每个时间步 \( t \),损失函数为:

\[ \mathcal{L}_{\text{simple, t}} = \mathbb{E}_{\tau, \epsilon \sim \mathcal{N}(0, I)} \left[ \left\| \epsilon - \epsilon_\theta(\sqrt{\bar{\alpha}_\tau}s_{t+1} + \sqrt{1-\bar{\alpha}_\tau}\epsilon, c_t, \tau) \right\|^2 \right] \]

其中 \( c_t = (s_t, \dots, s_{t-k+1}, a_t) \) 是条件上下文,\( \epsilon_\theta \) 是我们的去噪网络(一个Transformer)。最终的训练目标是所有时间步损失的总和:

\[ \mathcal{L} = \sum_{t=0}^{T-1} (\mathcal{L}_{\text{simple,t}} + \lambda \mathcal{L}_{\text{vlb,t}}) \]

这种表述允许我们使用因果掩码(causal masking)在单个前向-后向传播中并行化训练所有序列前缀。

3.3 模型架构:自回归条件扩散Transformer

我们的核心架构是Conditional Diffusion Transformer (CDiT) 的扩展版本,专为处理高维度的全身动作而设计:

  • 动作嵌入: 我们采用最直接的方式处理高维动作。我们将48维的动作向量 \( a_t \) 直接扁平化为一个1D张量,并将其输入到Transformer的每个自适应层归一化(AdaLN)层中,作为条件信息。我们发现这种简单的方法效果出奇地好。
  • 注意力机制: 为了实现高效的序列级训练,我们精心设计了注意力掩码。在预测第 \( t+1 \) 帧的潜在表示 \( s_{t+1} \) 时,其内部的token只能进行自注意力计算。而对于历史信息,\( s_{t+1} \) 的token可以交叉注意到之前所有干净的帧 \( s_0, \dots, s_t \) 的token。这确保了信息流的因果性,同时允许并行计算。
  • 随机时间跳跃: 如主文所述,我们从一个较长的视频窗口(例如32秒)中随机采样16帧进行训练。采样的时间间隔 \( \Delta t \) 也作为一个额外的条件输入给模型,让其了解帧之间的时间跨度。

图表2:PEVA架构示意图

此图简化展示了PEVA的训练流程。视频帧经过VAE编码器变为隐空间的tokens。这些tokens被输入到一个自回归的CDiT中。在去噪的每一步,模型都会接收历史帧信息和当前的动作指令作为条件,通过精心设计的注意力机制来预测下一帧。