人工智能领域的核心追求之一,是构建能够像人类和动物一样理解世界、适应环境并做出智能决策的系统。演讲者开宗明义,指出其研究的核心问题在于探寻智能体(尤其是人类和动物)学习世界运作方式的机制。这种学习,在生命早期主要通过观察完成,随后逐渐加入与环境的互动。自监督学习(Self-Supervised Learning, SSL)被认为是实现这一目标的关键途径,它使得系统能够从海量未标记数据中发现结构、理解模式,进而理解世界并可能进行规划与行动。
从物理学的视角看,宇宙万物遵循特定的规律与结构。物理学家通过观察现象、收集数据、建立模型来揭示这些规律。类似地,SSL的目标也是让机器从数据中“发现”世界的内在结构和规律,这与物理学探索自然法则的逻辑不谋而合。世界本身是结构化的、存在冗余信息的,这为SSL提供了学习的土壤。
模拟智能体通过观察动态环境(如物体间的简单物理交互)来学习模式。
演讲者尖锐地指出,当前AI领域部分研究者对于“仅通过扩大语言模型(LLMs)就能实现人类水平AI”的观点持批判态度。他通过一个引人深思的“数量级估算”来支撑其论点:
这一对比强烈暗示,仅仅依赖文本信息不足以构建对世界全面的理解。人类(及动物)学习到的关于世界的许多知识与语言无关,而是源于丰富的感官输入,尤其是视觉。视觉信号虽然高度冗余,但这正是SSL得以发挥作用的关键——SSL的核心在于利用数据中的冗余和结构来学习。随机信号无法学习,必须有结构可循。这如同物理学中,只有在可观测、可重复的现象中才能提炼出规律。
动态展示LLM通过文本学习与人类儿童通过视觉学习所处理的信息量级与时间跨度。
面对如何形式化“发现数据结构”这一问题,演讲者对传统概率密度估计方法在处理高维空间数据时的局限性表示怀疑(如归一化常数难以计算等问题,物理学家对此深有体会)。他转而推崇一种更“弱”但更灵活的方式——能量模型(Energy-Based Models, EBMs)。
EBM的核心思想是为输入变量(例如X和Y)定义一个能量函数 F(X, Y)。这个函数的特性是:
这种表述与物理学中的能量概念异曲同工。物理系统总是趋向于达到能量最低的稳定状态。EBMs借鉴了这一思想,通过学习一个能量函数来捕捉变量间的依赖关系,而非直接预测一个变量到另一个变量的函数映射(因为可能存在一对多的关系)。
在EBM框架下,推理(Inference)过程不再是简单的前向传播,而是一个搜索或优化过程。例如,给定X,要推断Y,系统会搜索能使能量函数 F(X, Y) 最小化的Y值。如果F是连续可微的,可以使用基于梯度的优化方法。这种通过优化进行推理的方式,本质上比传统神经网络的前向计算更强大。未来的AI系统很可能需要采用这种基于搜索和推理的机制。
展示一个能量表面,数据点聚集在低能量区域(“峡谷”)。动画演示一个粒子(代表推理过程)如何搜索并移动到能量最低点。
训练EBMs的关键在于塑造能量函数。演讲者主要介绍了两类训练方法:
无论是哪种方法,都需要解决一个核心问题——“坍塌”(Collapse)。如果能量函数非常灵活,在训练时仅降低正样本的能量而不做其他约束,能量函数可能会学到一个处处都很低的“平坦”表面。这样的模型是无用的,因为它无法区分真实数据和非真实数据,失去了捕捉变量间依赖关系的能力。这类似于物理系统陷入一个平凡的、无结构的基态,无法展现丰富的动力学行为。许多SSL技术的核心就是防止这种坍塌。
模拟对比学习中正负样本能量的调整、模型坍塌的后果以及正则化方法如何维持能量表面的结构。
演讲者强调,对于图像、视频这类高维连续数据,直接使用生成式架构(Generative Architectures,即试图预测每一个像素的模型)效果不佳,因为精确预测高维信号的每一个细节极其困难,往往导致预测结果模糊(系统倾向于预测平均值)。
他提出的解决方案是联合嵌入预测架构 (Joint Embedding Predictive Architectures, JEPA)。其核心思想是:
JEPA的关键在于,它不在原始输入空间(如像素空间)进行预测,而是在更低维、更抽象的表示空间进行预测。编码器可以过滤掉输入中不可预测的细节和噪声,只保留对预测有用的核心信息。这使得预测任务变得更简单、更可行。例如,预测视频中物体将如何移动的抽象概念,比预测背景中每一片树叶如何摆动要容易得多。
这种“在抽象层面进行预测”的思想,与物理学中通过建立抽象模型(如质点模型、场论模型)来描述和预测复杂系统行为的逻辑高度一致。物理学家不会试图追踪系统中每个原子的精确状态,而是关注宏观量或关键自由度的演化。
JEPA的训练也需要防止坍塌,例如通过对比损失(如Siamese Nets的早期做法)或更近期的正则化方法(如Barlow Twins, VICReg, DINO中的自蒸馏技巧等)。演讲中提到的DINO等方法,通过特定的训练技巧(如EMA更新目标编码器、多尺度裁剪增强等)在图像表示学习上取得了超越监督学习的性能,证明了JEPA类架构的巨大潜力。
展示数据X和Y分别通过编码器得到表示Sx和Sy,以及预测器如何在表示空间中从Sx预测Sy。
JEPA架构为构建世界模型 (World Models) 提供了坚实基础。世界模型能够:
一旦拥有了这样的世界模型,智能体就可以通过规划 (Planning) 来实现目标:在一个成本函数(衡量任务完成度、危险性等)的指导下,通过优化搜索,找到能够使目标最优化的动作序列。这类似于心理学中的“系统2”思维——深思熟虑、基于对行动后果的预估来做决策。
这种学习世界模型并用于规划的方法,被认为是比传统强化学习(RL)更有效率的路径。RL通常需要大量的试错,而基于模型的规划则更为数据高效。演讲者甚至直言,应尽可能减少对RL的依赖。
从物理学的角度看,建立世界模型的过程,就像科学家试图构建描述宇宙万物演化规律的理论模型(例如,牛顿力学可以预测行星运动)。一旦有了准确的模型,就可以进行预测和控制。科学的进步很大程度上依赖于找到对现象的良好表示(例如,描述行星运动只需要位置和速度六个参数,而无需其颜色、温度等大量无关信息)。AI的目标也是如此:学习到对世界有用的抽象表示,并在此基础上建立预测模型。
演讲中提到,基于JEPA训练的视频模型(如VJPA),在观看包含物理上不可能发生的事件(如物体凭空消失或变形)的视频时,其预测误差会显著上升。这表明这些模型仅仅通过观察自然视频,就自发地学习到了一些关于世界运作方式的“直觉物理”知识,这非常令人振奋。
一个简化的网格世界,智能体使用其内部世界模型(对动作结果的预测)来规划到达目标的路径。
演讲者最后总结了他的核心观点和建议:
核心在于,智能的本质是对世界的多层次抽象表示的构建和运用。正如物理学通过从量子场论到宏观物体等不同层次的抽象来理解世界一样,AI也需要发展出能够捕捉世界不同层面本质规律的表示学习方法。只有这样,机器才能真正“理解”世界,而不仅仅是模式匹配或文本生成。