自监督学习的物理逻辑解读

引言：探索智能的本质——学习世界如何运作

人工智能领域的核心追求之一，是构建能够像人类和动物一样理解世界、适应环境并做出智能决策的系统。演讲者开宗明义，指出其研究的核心问题在于探寻智能体（尤其是人类和动物）学习世界运作方式的机制。这种学习，在生命早期主要通过观察完成，随后逐渐加入与环境的互动。自监督学习（Self-Supervised Learning, SSL）被认为是实现这一目标的关键途径，它使得系统能够从海量未标记数据中发现结构、理解模式，进而理解世界并可能进行规划与行动。

从物理学的视角看，宇宙万物遵循特定的规律与结构。物理学家通过观察现象、收集数据、建立模型来揭示这些规律。类似地，SSL的目标也是让机器从数据中“发现”世界的内在结构和规律，这与物理学探索自然法则的逻辑不谋而合。世界本身是结构化的、存在冗余信息的，这为SSL提供了学习的土壤。

动画1：观察中学习 (Learning by Observation)

模拟智能体通过观察动态环境（如物体间的简单物理交互）来学习模式。

数据之辩：语言的局限与感官信息的浩瀚

演讲者尖锐地指出，当前AI领域部分研究者对于“仅通过扩大语言模型（LLMs）就能实现人类水平AI”的观点持批判态度。他通过一个引人深思的“数量级估算”来支撑其论点：

大型语言模型（LLMs）的训练数据量级约为 10¹⁴ 字节（约30万亿tokens）。人类阅读如此体量的数据，大约需要50万年。
相比之下，一个4岁儿童，在约16000小时的清醒时间内，通过视觉（视神经每秒传输约1字节数据，共约200万根视神经纤维）接收到的信息量也达到了 10¹⁴ 字节的量级，但仅需4年。

这一对比强烈暗示，仅仅依赖文本信息不足以构建对世界全面的理解。人类（及动物）学习到的关于世界的许多知识与语言无关，而是源于丰富的感官输入，尤其是视觉。视觉信号虽然高度冗余，但这正是SSL得以发挥作用的关键——SSL的核心在于利用数据中的冗余和结构来学习。随机信号无法学习，必须有结构可循。这如同物理学中，只有在可观测、可重复的现象中才能提炼出规律。

动画2：信息输入量级对比 (Data Volume Comparison)

动态展示LLM通过文本学习与人类儿童通过视觉学习所处理的信息量级与时间跨度。

能量模型（EBMs）：一种物理学启发的建模范式

面对如何形式化“发现数据结构”这一问题，演讲者对传统概率密度估计方法在处理高维空间数据时的局限性表示怀疑（如归一化常数难以计算等问题，物理学家对此深有体会）。他转而推崇一种更“弱”但更灵活的方式——能量模型（Energy-Based Models, EBMs）。

EBM的核心思想是为输入变量（例如X和Y）定义一个能量函数 F(X, Y)。这个函数的特性是：

当X和Y是“相容”或“匹配”的（即它们是数据流形上的点），能量函数 F(X, Y) 取低值。
当X和Y是“不相容”的（即它们偏离数据流形），能量函数 F(X, Y) 取高值。

这种表述与物理学中的能量概念异曲同工。物理系统总是趋向于达到能量最低的稳定状态。EBMs借鉴了这一思想，通过学习一个能量函数来捕捉变量间的依赖关系，而非直接预测一个变量到另一个变量的函数映射（因为可能存在一对多的关系）。

在EBM框架下，推理（Inference）过程不再是简单的前向传播，而是一个搜索或优化过程。例如，给定X，要推断Y，系统会搜索能使能量函数 F(X, Y) 最小化的Y值。如果F是连续可微的，可以使用基于梯度的优化方法。这种通过优化进行推理的方式，本质上比传统神经网络的前向计算更强大。未来的AI系统很可能需要采用这种基于搜索和推理的机制。

动画3：能量景观与推理过程 (Energy Landscape & Inference)

展示一个能量表面，数据点聚集在低能量区域（“峡谷”）。动画演示一个粒子（代表推理过程）如何搜索并移动到能量最低点。

训练EBMs：对比方法、正则化方法与“坍塌”问题

训练EBMs的关键在于塑造能量函数。演讲者主要介绍了两类训练方法：

对比方法 (Contrastive Methods)：
- 对真实数据点（正样本），降低其能量值。
- 生成一些“对比样本”或“负样本”（例如，演讲中闪烁的绿点），并提升这些负样本的能量值。
- 代表性方法包括：最大似然法（配合MCMC采样负样本）、对比散度（CD）、Siamese Nets中的度量学习、CLIP等。生成对抗网络（GANs）和掩码自编码器（Masked Autoencoders, MAE）、扩散模型等也属于此类。
- 挑战：在高维空间中，可能需要指数级数量的负样本才能有效塑造能量曲面，这使得对比方法在处理高维复杂数据时效率不高。
正则化方法 (Regularized Methods)：
- 通过架构约束或在损失函数中加入正则项，来限制能够取得低能量值的数据区域的“体积”或“容量”。
- 当降低真实数据点的能量时，由于低能量空间的容量有限，其他区域的能量自然会“被迫”升高。
- 代表性方法包括：PCA、K-Means、高斯混合模型、稀疏编码、变分自编码器（VAE）、VQ-VAE、Barlow Twins、VICReg等。
- 演讲者认为，对于SSL，正则化方法比对比方法更有前景。

无论是哪种方法，都需要解决一个核心问题——“坍塌”（Collapse）。如果能量函数非常灵活，在训练时仅降低正样本的能量而不做其他约束，能量函数可能会学到一个处处都很低的“平坦”表面。这样的模型是无用的，因为它无法区分真实数据和非真实数据，失去了捕捉变量间依赖关系的能力。这类似于物理系统陷入一个平凡的、无结构的基态，无法展现丰富的动力学行为。许多SSL技术的核心就是防止这种坍塌。

动画4：EBM训练方法与坍塌问题 (EBM Training & Collapse Prevention)

模拟对比学习中正负样本能量的调整、模型坍塌的后果以及正则化方法如何维持能量表面的结构。

架构创新：联合嵌入预测架构 (JEPA)

演讲者强调，对于图像、视频这类高维连续数据，直接使用生成式架构（Generative Architectures，即试图预测每一个像素的模型）效果不佳，因为精确预测高维信号的每一个细节极其困难，往往导致预测结果模糊（系统倾向于预测平均值）。

他提出的解决方案是联合嵌入预测架构 (Joint Embedding Predictive Architectures, JEPA)。其核心思想是：

将输入X通过一个编码器（Encoder）映射到一个抽象的表示空间，得到表示 S_X。
对目标Y（例如，视频的下一帧，或者X的另一个视角）也通过一个（通常是共享权重或缓慢更新权重的）编码器映射到表示 S_Y。
然后，训练一个预测器（Predictor），在表示空间中从 S_X 预测 S_Y。

JEPA的关键在于，它不在原始输入空间（如像素空间）进行预测，而是在更低维、更抽象的表示空间进行预测。编码器可以过滤掉输入中不可预测的细节和噪声，只保留对预测有用的核心信息。这使得预测任务变得更简单、更可行。例如，预测视频中物体将如何移动的抽象概念，比预测背景中每一片树叶如何摆动要容易得多。

这种“在抽象层面进行预测”的思想，与物理学中通过建立抽象模型（如质点模型、场论模型）来描述和预测复杂系统行为的逻辑高度一致。物理学家不会试图追踪系统中每个原子的精确状态，而是关注宏观量或关键自由度的演化。

JEPA的训练也需要防止坍塌，例如通过对比损失（如Siamese Nets的早期做法）或更近期的正则化方法（如Barlow Twins, VICReg, DINO中的自蒸馏技巧等）。演讲中提到的DINO等方法，通过特定的训练技巧（如EMA更新目标编码器、多尺度裁剪增强等）在图像表示学习上取得了超越监督学习的性能，证明了JEPA类架构的巨大潜力。

动画5：JEPA架构工作原理 (JEPA Architecture in Action)

展示数据X和Y分别通过编码器得到表示Sx和Sy，以及预测器如何在表示空间中从Sx预测Sy。

世界模型、规划与智能的未来

JEPA架构为构建世界模型 (World Models) 提供了坚实基础。世界模型能够：

感知当前世界状态，并形成一个表示 S_current。
给定一个设想的动作序列 A = (a₁, a₂, ..., a_n)。
预测采取该动作序列后，世界将达到的一系列未来状态的表示 S_future1, S_future2, ...。

一旦拥有了这样的世界模型，智能体就可以通过规划 (Planning) 来实现目标：在一个成本函数（衡量任务完成度、危险性等）的指导下，通过优化搜索，找到能够使目标最优化的动作序列。这类似于心理学中的“系统2”思维——深思熟虑、基于对行动后果的预估来做决策。

这种学习世界模型并用于规划的方法，被认为是比传统强化学习（RL）更有效率的路径。RL通常需要大量的试错，而基于模型的规划则更为数据高效。演讲者甚至直言，应尽可能减少对RL的依赖。

从物理学的角度看，建立世界模型的过程，就像科学家试图构建描述宇宙万物演化规律的理论模型（例如，牛顿力学可以预测行星运动）。一旦有了准确的模型，就可以进行预测和控制。科学的进步很大程度上依赖于找到对现象的良好表示（例如，描述行星运动只需要位置和速度六个参数，而无需其颜色、温度等大量无关信息）。AI的目标也是如此：学习到对世界有用的抽象表示，并在此基础上建立预测模型。

演讲中提到，基于JEPA训练的视频模型（如VJPA），在观看包含物理上不可能发生的事件（如物体凭空消失或变形）的视频时，其预测误差会显著上升。这表明这些模型仅仅通过观察自然视频，就自发地学习到了一些关于世界运作方式的“直觉物理”知识，这非常令人振奋。

动画6：基于世界模型的规划 (Planning with a World Model)

一个简化的网格世界，智能体使用其内部世界模型（对动作结果的预测）来规划到达目标的路径。

结论与展望：走向真正的理解

演讲者最后总结了他的核心观点和建议：

放弃在高维连续数据（如图像、视频）上使用生成式模型，转而采用JEPA等联合嵌入预测架构。
放弃概率建模，拥抱能量模型的视角。
放弃（或谨慎使用）对比学习方法，优先考虑正则化方法。
尽可能减少对强化学习的依赖，用学习世界模型并进行规划来替代。
对于有志于实现人类水平AI的研究者，不应执着于扩展LLMs，而应聚焦于JEPA、自监督世界模型和规划等更有前景的方向。

核心在于，智能的本质是对世界的多层次抽象表示的构建和运用。正如物理学通过从量子场论到宏观物体等不同层次的抽象来理解世界一样，AI也需要发展出能够捕捉世界不同层面本质规律的表示学习方法。只有这样，机器才能真正“理解”世界，而不仅仅是模式匹配或文本生成。