作者: Siyuan Guo, Bernhard Schölkopf
机构: 剑桥大学计算机科学系, 马克斯·普朗克智能系统研究所, 德国 & 英国
通讯作者: [email protected]
我们研究构建一个高效学习系统的问题。高效学习在最少的时间内处理信息,即构建一个用最少的观测数据达到期望误差阈值的系统。基于物理学中的最小作用量原理,我们从第一性原理——即"学习拉格朗日量"——推导出了经典的机器学习算法、强化学习中的贝尔曼最优性方程以及生成模型中的Adam优化器。我们假设,学习是在拉格朗日量中搜索平稳路径的过程,而学习算法可以通过寻找这些平稳轨迹来推导得出。
摘要解读:
想象一下,你学物理的目标是"学得又快又好"。这篇文章研究的,就是如何让AI也实现这个目标。这里的"高效学习"指的是,AI看最少的数据(比如做最少的练习题),就能达到我们满意的水平(比如考试及格)。
作者们提出了一个非常大胆的想法:他们认为AI学习的过程,和物理世界里物体的运动规律一样,都遵循一个叫"最小作用量原理"的东西。这个原理在物理学里非常基本,大概意思是"大自然总是选择最省力、最经济的路径"。比如,光从A点到B点,总是走时间最短的那条路。
基于这个想法,他们定义了一个叫做"学习拉格朗日量"的数学工具(这是从物理学里借来的概念)。然后,他们惊奇地发现,通过求解这个"学习拉格朗日量"的最优路径,竟然能推导出好几种我们已经熟知的AI学习算法,比如教AI下棋的"贝尔曼方程"和训练AI画画的"Adam优化器"。
所以,这篇论文的核心观点是:所有AI的学习过程,本质上都是在寻找一条"最经济、最省力"的学习路径。而那些五花八门的学习算法,只不过是寻找这条最优路径的具体方法而已。这个观点试图为整个人工智能领域找到一个像牛顿定律之于经典力学那样的统一理论基础。
表1:受物理学启发的学习拉格朗日量概览。 机器学习涵盖了从监督学习、无监督学习到强化学习和生成模型等广泛的范式。我们假设学习也遵循一条物理定律,即最小作用量原理。我们通过从第一性原理进行推导,来统一不同的学习范式。特别地,我们将学习拉格朗日量与现有的物理定律进行比较,并详细说明了每条原理在学习任务中的适用应用。我们推导出了在拉格朗日量中搜索平稳解时出现的经典学习算法。
表格解读:
这张表格是整篇论文的"地图"和"精华摘要"。它清晰地展示了物理学中的三大原理是如何与机器学习中的不同任务一一对应的。作者试图告诉我们,这不仅仅是巧合,背后有深刻的统一规律。
表格分为左右两大部分:物理学和机器学习。左边是我们熟悉的物理原理,右边是它们在AI领域的"孪生兄弟"。
总而言之,这张表就像一个"翻译词典",它告诉我们,物理学家用来描述宇宙运行的数学语言,和计算机科学家用来训练AI的数学语言,在本质上可能是相通的。
物理学 | 机器学习 | |
---|---|---|
原理 | 费马原理 $T =\int_{A}^{B}dt$ |
$T =\int_{\epsilon[\emptyset]}^{\epsilon[s]}dt$ [*] |
哈密顿量 $H(x, p) = p \cdot \dot{x} - L(x, \dot{x})$ |
$H(s, a, \lambda) = r(s, a) + f(s, a)^T \lambda$ [†] | |
拉格朗日量 $L = T - V$ |
$\mathcal{L}(\ell, \nabla_{\theta}\ell) = \frac{1}{2}(\nabla_{\theta}\ell)^T F^{-1}\nabla_{\theta}\ell-\ell(\theta)$ [*] | |
应用 | 费马原理 | 参数化模型 |
算法 | A-optimality (Atkinson et al., 2007) | |
应用 | 哈密顿量 | 强化学习 |
算法 | 贝尔曼方程 (Bellman, 1958) | |
应用 | 拉格朗日量 | 生成模型 / 监督学习 |
算法 | Adam (Kingma, 2014) / RMSprop (Tieleman, 2012) |
注释: 费马原理中的T表示从A点传播到B点所需的时间;$\epsilon[\emptyset]$,$\epsilon[s]$ 是从观察到零数据到数据序列 $s := s_1, s_2, \dots$ 后的泛化误差;H是具有位置x和动量p以及拉格朗日量L的(物理)哈密顿系统;$H(s, a, \lambda)$ 是强化学习的对应物,具有状态s、动作a、奖励r(s, a)、转移动态f(s, a)和动量等效物$\lambda$;$L=T-V$ 表示动能减去势能;$\ell$ 表示某个对数似然函数;$\nabla_{\theta}\ell$ 是关于模型参数$\theta \in \mathbb{R}^P$的梯度;$F^{-1}$表示费雪信息的逆。粗体符号是向量;$(\cdot)^T$是转置;$\dot{x}$ 是对时间的导数。标有[†]的学习拉格朗日量表示它是控制理论中的经典教科书材料(见Todorov(2006))。标有[*]的学习拉格朗日量是本研究提出的;据我们所知,截至2025年9月,尚无已发表的先前工作。
现代机器学习涵盖了广泛的范式——监督学习和无监督学习、强化学习以及生成模型,其中深度架构是主要的建模基底。随着实验室、工业界和政策制定者势头的增强,工作重心转向将技术进步转化为产品。这些努力加速了部署,但也使得试错工程和规模优先的启发式方法占据了主导地位,部分原因在于我们仍然缺乏对学习何时以及为何能够出现、泛化和失败的原则性理解。这一差距阻碍了设计样本和计算效率高的学习系统的系统性方法论。
引言解读 (第一段):
这段话点明了当前AI领域的一个"痛点"。现在AI技术发展得非常快,各种模型(比如ChatGPT)层出不穷,应用也越来越广。大家都在忙着把最新的技术做成产品推向市场。这种快节奏导致了一种"野蛮生长"的现象:大家更倾向于用"试错法"和"大力出奇迹"(比如用更多的数据、更大的模型)来解决问题,而不是真正去搞明白背后的原理。
这就好比我们发明了火药,知道它能爆炸,于是就用它来做各种鞭炮和武器,但对火药为什么会爆炸的化学原理却不甚了了。同样,我们知道AI能学习,但对于"学习"这件事本身——它为什么能学会?为什么有时学得好(泛化),有时学得不好(失败)?——我们还缺乏一个像物理定律那样清晰、根本的理论。作者认为,正是因为缺少这样一个理论,我们才无法系统地设计出真正高效(既省数据又省计算资源)的AI系统。这篇论文的目的,就是尝试填补这个理论空白。
本文展示了物理学和学习之间的紧密联系,并假设学习算法是作为学习拉格朗日量的平稳轨迹而出现的。本文通过将不同的学习范式置于一个单一的变分框架中,提出了一个第一性原理的解释。我们假定学习拉格朗日量,并表明算法是作为其作用量的驻点而出现的,从而为参数估计任务——包括监督学习和生成建模——以及强化学习提供了一个统一的视角。表1总结了本文的主要结果。受物理原理的启发,我们假设了相应的学习类比,并阐述了其在合适的学习任务中的应用。通过寻求相关作用量的平稳路径,我们重现了经典的算法。
引言解读 (第二段):
这里作者亮出了自己的"兵器"和核心论点。他们认为,物理学和AI学习之间有非常密切的关系。核心观点是:AI的学习算法,本质上是在寻找"学习拉格朗日量"这个数学函数中的"平稳轨迹"。
这个说法可能有点抽象,我们来打个比方。想象一个山谷,你在山顶放一个小球,它会沿着山谷滚下来,最终停在谷底。小球滚动的路径,就是一条"平稳轨迹",而谷底就是"驻点"。这条路径是能量消耗最少的路径。这里的"山谷地形"就相当于"学习拉格朗日量"。作者认为,AI的学习过程,就像那个小球在寻找谷底一样,它会自动寻找一条最优的、最稳定的路径来更新自己的知识。而我们看到的各种学习算法,其实就是这个小球滚下山谷的具体方式。
通过这个统一的"变分框架"(你可以理解为研究"最优路径"的数学工具),作者成功地把好几种看似不相关的AI学习任务(比如识别图片的监督学习、画画的生成模型、下棋的强化学习)都统一到了一起。他们先是大胆地"假设"了学习过程中的拉格朗日量长什么样,然后通过数学推导,发现真的能得到我们现在用的那些经典算法。这就像牛顿先假设了万有引力定律,然后用它成功解释了行星运动和苹果落地,从而证明了定律的正确性。
相关工作。 机器学习和物理学的早期渊源可以追溯到基于能量的模型(Hinton, 2025; Hopfield, 1982)以及对其记忆容量的统计力学分析(Gardner & Derrida, 1988)。Kaplan等人(2020)的研究表明,随着神经模型规模的扩大,出现了类似物理学的标度律;最近的一些研究工作已经开始使用统计力学工具来分析这一现象(Cui等人, 2021; Sorscher等人, 2022; Defilippis等人, 2024; Bahri等人, 2024; Paquette等人, 2024)。Bahri等人(2020)提供了一份更近期的、专注于深度模型的综述。而本文则研究了高效学习与物理拉格朗日量之间的关系,而没有讨论模型架构的选择。这项工作通过寻求平稳轨迹来推导算法,并且不同学习范式之间共享的共性提供了一个统一的视角。
相关工作解读:
这段是在"文献综述",也就是告诉读者,前人在这方面都做了哪些工作,以及本文的创新之处在哪里。作者说,用物理学思想来理解AI并不是一个全新的想法。很早以前,就有科学家把AI模型看作一个能量系统(就像一个磁场),或者用统计力学(研究大量粒子行为的物理学分支)来分析AI的记忆能力。
最近,大家发现一个有趣的现象,叫做"标度律"(scaling law):当AI模型变得越来越大时,它的性能提升遵循着一个非常规律的、像物理公式一样的模式。这让更多人开始用物理学的工具来研究AI。但是,之前的大部分工作都集中在研究AI的模型结构(比如神经网络的神经元怎么连接)上。
本文的独特之处在于,它不关心AI模型具体长什么样(是深是浅,是宽是窄),而是专注于"学习过程"本身。它研究的是"如何高效学习"这个问题,并且试图从物理学的拉格朗日量这个更根本的层面出发,通过寻找"最优学习路径"来推导出具体的学习算法。这为AI的各种学习方法提供了一个统一的解释框架,这是以前的工作没有做到的。
论文组织结构:
论文结构解读:
这里是论文的"路线图",告诉读者接下来要讲什么内容。
智能系统中的学习所经过的距离不是空间上的,而是观察到的信息。直到时间t的数据流是 $s_1, s_2, \dots, s_t$,简写为 $s_{\le t}$。在物理学中,速度定义为位置随时间的变化率:$v = \lim_{\Delta t \to 0} \frac{\Delta s}{\Delta t} = \frac{ds}{dt}$。在信息处理中,我们将位置定义为直到时间t的香农信息量(Shannon, 1948):$I(s_{\le t}) := -\log p(s_{\le t})$。因此,信息内容随时间的变化率,被称为瞬时信息速度,可以推导为:$v = \lim_{\Delta t \to 0} \frac{I(s_{\le t+\Delta t}) - I(s_{\le t})}{\Delta t}$。在离散信息流中(例如,语言标记),当$\Delta t = 1$时,给定一个数据流 $x_{\le t}$,在时间t的速度是 $v(t) = -\log p(x_t | x_{ 将学习过程类比为物理运动 (第一段): 这段话做了一个非常核心且巧妙的类比,把AI的学习过程比作了一次物理运动。我们高中学的物理运动,描述的是物体在"空间"中的位置变化。而作者认为,AI学习,是它在"信息空间"中的位置变化。 我们来拆解一下这个类比: 所以,这个类比的惊人之处在于,它把AI训练中一个非常核心的指标——"损失"(loss),直接等同于了物理学中的"速度"。AI学习的过程,就是在信息空间中以一定的"速度"前进的过程。 为了检验信息处理中距离和速度之间的一致性,我们期望它能满足基本的物理属性,例如,距离是速度的积分。 距离作为积分。 在离散时间中,物理距离满足:距离 = $\sum_i v(t_i)\Delta t$。这在信息处理中同样成立:总信息量是链式法则条件概率的总和:$I(x_{\le t}) = -\log p(x_1, \dots, x_t) = \sum_{i=1}^t v(t_i) = -\sum_{i=1}^t \log p(x_i|x_{
验证类比的合理性: 一个好的类比必须是自洽的。作者在这里做的,就是验证他们的"信息运动学"是否符合我们熟知的物理规律。在物理中,我们知道一个基本关系:路程等于速度对时间的积分(对于匀速运动就是速度乘以时间,对于变速运动就是把每一小段时间的速度乘以那一小段时间,然后加起来)。 作者发现,这个关系在"信息空间"里也完全成立! 根据概率论的链式法则,我们知道一个联合概率可以被分解为一系列条件概率的乘积:$p(x_1, \dots, x_t) = p(x_1) \cdot p(x_2|x_1) \cdot \dots \cdot p(x_t|x_1, \dots, x_{t-1})$。两边取对数,再加个负号,就变成了:$-\log p(x_1, \dots, x_t) = \sum_{i=1}^t -\log p(x_i|x_{
这个公式翻译过来就是:总信息量 = 每一步信息速度的总和。这和物理学里"总路程 = 每段速度乘以时间的总和"完美对应!这个发现非常重要,它说明作者把"学习损失"类比为"速度"并不是凭空想象,而是有坚实的数学基础支撑的。 继续从信息处理中理解运动学量,加速度是速度的瞬时变化,定义为 $a = \frac{dv}{dt} = \lim_{\Delta t \to 0} \frac{\Delta v}{\Delta t}$。 加速度。 在离散信息流中,加速度模拟了信息处理中条件概率的瞬时变化: 将信息处理建模为运动学,即物理空间中的运动,为理解后文的假设——学习是搜索作用量的平稳轨迹——做好了准备。因为轨迹通常意味着在物理空间中的运动,这里我们指的是在上述意义上的信息空间中的运动。从运动学的角度来考虑损失曲线,无论是上下文学习、训练损失还是测试损失,都提供了洞见1。图1绘制了小型语言模型的每个词元的上下文损失及其离散的一阶和二阶差分,分别对应于预期的测试时上下文学习速度和加速度。 引入"信息加速度": 既然有了"信息速度",那么很自然地,就会有"信息加速度"。物理学中,加速度是速度的变化率 ($a = \Delta v / \Delta t$)。在信息世界里,作者将它定义为"信息速度"的变化率。 我们知道,$v(t) = - \log p(x_{t+1} | x_{\le t})$。那么在下一个时刻的速度就是 $v(t+1) = - \log p(x_{t+2} | x_{\le t+1})$。因此,"信息加速度"就是这两个速度之差:$a(t) = v(t+1) - v(t) = - \log p(x_{t+2} | x_{\le t+1}) + \log p(x_{t+1} | x_{\le t})$。 这个"信息加速度"有什么直观意义呢? 作者强调,建立起这套"信息运动学"(距离、速度、加速度)的体系,是为了给后文的核心思想——用拉格朗日量和最小作用量原理来描述学习——铺平道路。因为物理学中的这些原理,描述的就是物体在时空中的"轨迹"。现在,作者可以在"信息空间"里,讨论AI学习的"轨迹"了。我们平时看到的模型训练时的"损失曲线"(Loss Curve),其实就可以被看作是AI在信息空间中运动的"速度-时间"图像。 洞见1 (学习作为一个减速过程:存在一个下限 $\inf v(t)$。) 衡量学习进度的测试数据集上的泛化误差,其下界为0或由数据内在不确定性决定的$\epsilon$。上下文损失曲线,$v_{\theta}(t) = -\mathbb{E}[\log p_{\theta}(x_t|x_{ a根据单调收敛定理,一个有下界且非增的函数会收敛到某个极限。因此,我们假设学习会收敛到其下确界。 核心洞见:学习是一个减速过程 这是第2节得出的最核心、最直观的结论。有了前面的铺垫,这个结论就水到渠成了。我们知道,AI的学习目标是让它的预测越来越准,也就是让它的"损失"(loss)越来越小。在我们刚刚建立的类比中,"损失"就等于"信息速度"。 所以,"学习"这个过程,就是让"信息速度" $v(t)$ 不断减小的过程。一开始,AI什么都不懂,看什么数据都觉得很新奇,预测错误率很高,所以它的"信息速度"非常快。随着学习的进行,它见得多了,知识越来越丰富,对数据的模式越来越了解,预测也越来越准,犯的错误越来越少。因此,它的"信息速度"(损失)就逐渐降下来了。 这个过程显然是一个"减速"过程,因为速度在不断变小。这个速度不可能无限减小下去,它有一个极限,最小也就能到0(表示AI完全预测对了所有东西),或者是一个大于0的很小的数 $\epsilon$(因为数据本身可能存在一些随机噪声,导致不可能100%完美预测)。 这个洞见非常符合我们的直觉。就像一个学生学习新知识,一开始进步飞快,感觉每天都在吸收海量信息。但学到后面,知识体系逐渐完善,剩下的都是一些难啃的硬骨头,进步的速度就会慢下来,最终达到一个平台期。作者用严格的数学语言(单调收敛定理)证明了这个直观感受。这个"学习是减速过程"的结论,是后续所有理论的基础。 学习是在寻找一条路径,该路径使得由学习拉格朗日量支配的行动是平稳的。特别是,学习算法(如同运动方程)是通过寻求平稳轨迹获得的。 解读: 这句话是整篇论文的核心思想,听起来很玄乎,但我们可以用一个下山的例子来理解。想象一下你站在山顶,目标是走到山谷的最低点(这个最低点就好比是"学会了"的状态)。你有很多条路可以选,有的路很陡峭,走起来很费劲;有的路很平缓,走起来很轻松。这个"主要假设"说的就是,最高效的学习过程,就像是找到了那条最"省力"的下山路径。 这里的"拉格朗日量"你可以暂时理解成一个衡量"费力程度"的指标,而"平稳的"路径就是指这条路径上"费力程度"的变化最小、最稳定,不会忽高忽低。所以,论文认为,所有聪明的学习算法,本质上都是在无意识地寻找这样一条"最省力"的路径来达到学习目标。这就把机器学习的问题,巧妙地转化成了一个物理学里寻找最优路径的问题。 一束光从A点传播到B点,会选择一条耗时最少或最短的路径1。数学上表示为: 其中 $n = \frac{1}{v}$ 是折射率,$v$ 是光在介质中的速度。 1. 直觉目的:这个公式描述的是物理学中的一个基本原理:光总是走"最快"的路。比如光从空气射入水中会发生折射,就是因为它在水里跑得慢,所以它会聪明地调整角度,让在水里走的路程短一些,从而保证总时间最短。 2. 符号释义: 3. 逻辑骨架:公式的核心是 $n \cdot ds$。因为 $n=1/v$,$ds$ 是路程,所以 $ds/v$ 就是走完这一小段路程 $ds$ 的时间。整个积分就是把路径上所有微小片段的时间加起来,得到总时间 $T$。费马原理就是要找到一条路径,让这个总时间 $T$ 最小。 4. 关系网络: 该定律指出,一个粒子所走的实际路径 $\xi(t)$ 是使作用量 $S$ 平稳的路径,其中 其中 $L$ 是拉格朗日量, $T$ 是动能, $V$ 是势能。$\xi$ 是指定系统构型的广义坐标。 一个经典的例子是牛顿力学中的一个粒子,其中 $\xi$ 是粒子在系统中的坐标。拉格朗日量是 $L = \frac{1}{2}m|\dot{x}|^2 - V(x, t)$。寻找使作用量平稳的路径会导出欧拉-拉格朗日方程,从而给出运动方程 $m\ddot{x} = -\nabla V = F$。 1. 直觉目的:这个原理比费马原理更普适,是整个经典力学的基石。它的意思是,自然界万物的运动,都遵循一个"最经济"的原则。这个"经济"不是指时间最短或路程最短,而是指一个叫做"作用量"的东西最小(或平稳)。你可以把"作用量"想象成系统在整个运动过程中"所花费的总代价"。 2. 符号释义: 3. 逻辑骨架:首先定义一个描述系统状态的量 $L=T-V$。然后把这个量在整个运动时间上积分,得到总作用量 $S$。哈密顿原理说,物体实际走的路径,一定是让这个 $S$ 取到极值(通常是最小值)的那条路径。从这个原理出发,通过数学推导(变分法),就能得到牛顿第二定律 $F=ma$。这说明最小作用量原理比牛顿定律更基本。 4. 关系网络: 哈密顿系统是拉格朗日量的勒让德变换: 其中 $p = \frac{\partial L}{\partial \dot{x}}$ 是 $x$ 的共轭动量。 1. 直觉目的:如果说拉格朗日力学是用位置和速度来描述世界,那么哈密顿力学就是换了一种"语言",用位置和动量来描述同一个世界。哈密顿量 $H$ 通常就等于系统的总能量(动能+势能)。这种新"语言"在某些情况下(尤其是在量子力学中)比原来的"语言"更方便、更深刻。 2. 符号释义: 3. 逻辑骨架:这是一个定义式。它定义了如何从已知的拉格朗日量 $L$ 计算出哈密顿量 $H$。这个变换是分析力学中一个非常标准和重要的数学技巧,它改变了我们描述物理系统的方式,从"拉格朗日绘景"切换到了"哈密顿绘景"。 4. 关系网络: 高效学习就好比设计一个物理系统,让它沿着信息路径行走的过程,以便用最短的时间达到期望的误差阈值。为了使这个想法具体化:在学习中,我们将空间中的一个点定义为在观察到一个数据序列 $s := {s_1, s_2, \dots}$ 后的泛化误差 $\epsilon$。因此,高效学习意味着优化一条路径,以在最短的时间内达到一个误差阈值(参照费马最短时间原理)。数学上表示为: 其中 $\epsilon[s]$ 是看到数据路径 $s$ 后的泛化误差,$\epsilon[\emptyset]$ 表示看到任何数据之前的泛化误差,而 $\Theta$ 是一个指示函数,其中当 $x \le 0$ 时 $\Theta(x)=0$,当 $x>0$ 时为1。学习速度2,记为 $r(\epsilon, s)$,是随着信息进展,泛化误差的差异率,即 $r_{\theta}(\epsilon, s_n) = \epsilon_{\theta}(s_{n-1}) - \epsilon_{\theta}(s_n)$,其中小写的 $\theta$ 表示系统的配置3。最短时间被量化为最少的观察次数,假设每个观察中的信息含量相似4。因此我们提出评估高效学习的指标: 解读: 这一大段是论文的第一次"类比"。作者正式地把物理学原理应用到机器学习上。他认为,机器学习的"学习过程",就像光从A点走到B点,或者一个球从山上滚到山谷。学习的目标是让"泛化误差"(可以理解为模型在没见过的新题目上的犯错率)降低到一个可接受的水平 $\delta$ 以下。那么,"高效学习"就等同于找到一条最快的路径,让误差从初始状态下降到目标水平。 这里的"路径"不再是空间中的几何路径,而是你给模型"喂"数据的顺序和内容,即数据序列 $s$。喂不同的数据,模型的学习轨迹就不同,误差下降的速度也不同。公式(5)就是费马原理在学习问题上的翻版,它想找到一个数据序列 $s$,使得达到目标误差 $\delta$ 所需的"时间" $T$ 最短。这个"时间"可以是在现实世界中真正花费的计算时间(计算高效),也可以是需要看的样本数量(样本高效)。这为我们评价一个学习算法好不好,提供了两个非常实际的指标。 1. 直觉目的:这个公式是论文作者提出的"学习版"费马原理。它的目的是定义什么是"最快的学习"。它说,最快的学习就是找到一种喂养数据的方式(路径 $s$),使得模型犯错率(泛化误差 $\epsilon$)下降到某个目标值 $\delta$ 以下所花的时间 $T$ 最短。 2. 符号释义: 3. 逻辑骨架:这个公式通过一个最小化问题来定义高效学习。它构建了一个目标函数——学习时间 $T$,然后试图通过选择最优的数据路径 $s$ 来最小化这个时间。它为"高效学习"提供了一个清晰的、可优化的数学目标。 4. 关系网络: 上述指标清楚地表明,能够增加内在智能的高效学习需要在 $T_{\mathrm{sample}}$ 上进行优化,而仅仅投资于计算力可能不是最佳解决方案。 一个自然的下一步是优化给定的目标。然而,我们面临着未知泛化误差的技术难题。泛化误差在给定特定设置和算法的情况下是可推导的,但它不是先验已知的以供优化。 为了解决未知泛化误差在优化中的技术难题,我们考虑以下方法: 解读: 这里作者指出了一个核心困难:虽然我们提出了一个很美好的目标(公式5),但在实际操作中,我们根本不知道"泛化误差"到底是多少。这就像你想走最快的路下山,但你眼前一片浓雾,看不清哪条路通向山谷,哪条路是悬崖。你只能摸索着走一步看一步。 为了解决这个"浓雾"问题,作者提出了三种策略: 考虑一个线性回归设置:假设 $y = x^T \beta + \epsilon$ 且 $x \in \mathbb{R}^p$,$ \epsilon$ 的均值为0,方差为 $\sigma^2$。标准线性回归的泛化误差是: 其中 $x$ 是测试数据点,$x$ 是作为数据矩阵 $X$ 中各行的观测点序列。假设单位范数假设,即每个观测数据点都满足 $||x_i||_2 = 1, \forall i$,并且 $x$ 是从单位球体 $S^{p-1}$ 上均匀抽取的。我们在 $n \ge p$ 的经典机制下工作,这样数据矩阵 $X^T X$ 是可逆的且满秩。注意,根据单位范数假设, 此外,由于在 $S^{p-1}$ 上均匀采样,有 $\mathbb{E}[xx^T] = \frac{1}{p}I_p$。优化公式5中所示的拉格朗日量,我们希望选择观测数据路径 $x$ 使得 $\epsilon(x)$ 在最少的观测次数下最小化。由于 $S := X^T X$ 是一个实对称矩阵,根据谱定理,存在一个正交矩阵 $Q$ 和一个实对角矩阵 $\Lambda$ 使得 $S = Q\Lambda Q^T$。那么 $S^{-1} = Q\Lambda^{-1}Q^T$ 且 $\mathrm{tr}(S^{-1}) = \mathrm{tr}(\Lambda^{-1}Q^T Q) = \sum_i \frac{1}{\lambda_i}$。优化数据路径的问题: 转化为 $\min \frac{1}{p}\sum_{i=1}^p \frac{1}{\lambda_i}$,约束条件为 $\sum_{i=1}^p \lambda_i = n$。通过凸函数 $t \to \frac{1}{t}$ 和琴生不等式,可以得到 当 $\lambda_i = \frac{n}{p}$ 时不等式取等,因此最小值在 $\frac{1}{p}\sum_{i=1}^p \frac{1}{\lambda_i} = \frac{p}{n}$ 处达到。那么 如前第2节所述,依赖于具体的问题设置,存在一个不可约的泛化误差(此例中为 $\sigma^2$),且由于 $n \ge p$,泛化误差范围在 $(\sigma^2, 2\sigma^2]$ 之间。例如,要达到 $\epsilon(x) = 2\sigma^2$,所需的最小样本数为 $p$,且 $X$ 可以是任何正交矩阵 $Q$。要达到 $\epsilon(x) = 1.5\sigma^2$,所需的最小样本数为 $2p$,且 $X = \sqrt{2}V$,其中 $V$ 可以是任何(实的)斯蒂费尔矩阵。这个解析例子告诉我们,在给定函数类别和输入分布的参数化假设下,可以选择最有效的观测矩阵来减少泛化误差。这是线性回归设置中A-最优性(Atkinson et al., 2007)的一个特例。 一个自然的后续问题是,是否存在一条数据解路径,使得增加更多数据点始终保持在最优路径上?简短的回答是"否",因为 $X^T X = \sum x_i x_i^T$,增加单个数据点来维持 $S = \frac{n}{p}I_p$ 意味着增加的点具有 $x_i x_i^T = \frac{1}{p}I_p$ 的性质,由于秩在1和p之间的差异,这是不可能的。然而,增加 $p$ 个新数据点的块是可能的,在这种情况下是提前规划 $p$ 步。 解读: 这一整节就是前面提到的第一种策略:"参数化假设"。作者选择了一个最简单、研究最透彻的模型——线性回归,来给我们展示在"理想地图"下,最优学习路径是什么样的。 他做了一系列数学上很方便的假设(比如输入数据都在单位球面上均匀分布),然后推导出了泛化误差的具体表达式。这个表达式告诉我们,误差的大小,关键取决于一个叫 $X^T X$ 的矩阵的性质。我们的目标,就是通过精心挑选喂给模型的数据 $X$(即选择学习路径),来最小化这个误差。 经过一系列线性代数和不等式的推导,作者得出了一个惊人的结论:要使学习最快(即误差下降最快),我们提供的数据矩阵 $X^T X$ 应该是一个对角线上元素都相等的对角矩阵。从几何上讲,这意味着我们提供的数据点应该在所有维度上都是"正交的"、"不相关的"、"信息量均匀分布的"。这就像你想用最少的钉子固定一块木板,你肯定会把钉子均匀地钉在木板的四周,而不是全钉在一个角落。 最后,作者还讨论了一个有趣的问题:我们能不能一步一步地添加数据,并且每一步都保持在最优路径上?答案是不能。因为要保持那种完美的"均匀"结构,我们不能一个一个地加数据点,而必须一次性地、有规划地加入一批($p$个)相互"正交"的数据点。这引出了一个深刻的洞见:最高效的学习不是随机的、步进式的,而是需要提前规划的。 本节建立在两个洞见之上: 事实上,从奖励角度写的拉格朗日量中寻找平稳点,可以推导出贝尔曼最优性方程(Bellman, 1958),这是许多RL算法的支柱,例如,策略迭代、价值迭代(Sutton & Barto, 2018),Q-学习(Watkins & Dayan, 1992),深度Q学习(Mnih et al., 2013)。 奖励假设:所有目标都可以由奖励来表示 (Sutton & Barto, 2018)。 强化学习通过奖励 $r(s, a)$ 来衡量其当前状态 $s$ 和下一步行动 $a$ 的步进式进展,从而规避了未知泛化误差的问题。换句话说,价值函数 $V(s)$ 是最大化奖励的路径,而对 $\min_s$ 的优化是通过找到达到最优路径 $V^\star(s)$ 的最优策略来完成的。Greydanus & Olah (2019) 提供了一个直观的平台,说明如何从路径的角度来看待价值函数。注意,最优的确切量化可以通过设计奖励函数来适当地整合。 接下来,我们证明在RL设置中定义的拉格朗日量中寻找平稳点,会得到众所周知的学习算法,即贝尔曼最优性方程。我们并不声称此推导具有新颖性,因为它是经典控制理论中的教科书材料,参见庞特里亚金最大值原理(Kirk, 1970),连续情况下的哈密顿-雅可比-贝尔曼方程(Evans, 2010);我们将其包含进来是为了证明我们的主要假设——学习是在拉格朗日量中寻找平稳点,而寻找平稳点会产生经典学习算法——的支持。 学习问题的目标是找到行动 $(a_0, a_1, \dots, a_{n-1})$ 和状态 $(s_0, s_1, \dots, s_n)$ 来最大化目标函数 $J$,其中 约束条件为 $s_{k+1} = f(s_k, a_k)$ 且 $t_f$ 是最终时间。这假设了一个确定性的转移,即下一个状态由其行动唯一确定。而 $h(s_n)$ 是终点奖励。 解读: 这一节探讨的是第二种策略:"奖励假设",也就是强化学习(RL)的世界。在RL中,我们不再试图看清整个"地形图"(泛化误差),而是雇佣了一个"向导"。这个向导不会告诉你山谷在哪,但你每走一步,他都会告诉你这一步走得好不好,给你一个"奖励"或"惩罚"。比如,你走的方向是下坡,他就给你+1分;如果是上坡,就给你-1分。 RL的目标就变成了:规划一条路径,使得最终得到的总奖励最高。这个"总奖励最高"的目标,完美地替代了之前那个"泛化误差最低"的目标,从而巧妙地绕开了"看不见地图"的难题。 论文的作者更进一步,他把RL的这个"最大化总奖励"的目标,也用"最小作用量原理"的语言重新写了一遍。他构建了一个基于"奖励"的拉格朗日量,然后去寻找使这个拉格朗日量平稳的路径。令人惊讶的是,通过这一套物理学的分析方法,最终推导出来的"最优路径应遵循的规则",竟然就是强化学习领域最核心的方程——贝尔曼最优性方程! 这个推导虽然在控制理论中已经存在,但在这里出现,强有力地证明了作者的核心观点:无论是监督学习还是强化学习,其底层都可能遵循着一个统一的、源自物理学的"最经济"原理。这暗示了不同学习范式之间深刻的内在联系。 1. 直觉目的:这个公式定义了强化学习的终极目标:最大化我们能得到的"总回报"。这就像你玩一个游戏,目标是让最终得分最高。 2. 符号释义: 3. 逻辑骨架:总回报 $J$ = 终极大奖 + 沿途小奖的总和。强化学习的任务就是,在遵守游戏规则的前提下,选择一系列的行动 $(a_0, a_1, \dots)$,来让这个总回报 $J$ 达到最大值。 4. 关系网络: 段落解读: 这句话是解决复杂问题时一个非常经典且强大的思路的开场白。你可以把它想象成一个解题策略声明:"接下来,我要用一个名叫'拉格朗日乘数法'的高级工具,来解决之前提到的那个难题。" 我们来拆解一下这个策略。首先,"约束优化问题"是什么?想象一下,你的目标("优化")是期末考试总分最高,但你有一个限制条件("约束"),就是每天只有3个小时的自由学习时间。你需要在满足这个"约束"的前提下,找到各科学习时间的最佳分配方案,来实现总分"最优化"。生活和科学研究中充满了这样的问题:如何在有限的预算内设计出性能最好的火箭?如何在满足各种安全规章的前提下,规划出最快的行车路线?这些都是约束优化问题。 直接解决这类问题通常很困难,因为约束条件就像一个"紧箍咒",你不能随心所欲地去寻找最优解。而"拉格朗日算子"(或者叫拉格朗日乘数法)就是那个能暂时"解开紧箍咒"的咒语。它非常巧妙,能把一个"有约束"的难题,转变成一个"没有约束"的新问题。虽然新问题看起来更复杂了(因为它引入了新的变量,也就是拉格朗日乘数 $\lambda$),但解决起来反而更直接、更程序化。这篇论文的作者正准备运用这种经典方法来处理他们遇到的核心难题。 1. 直觉目的:这个公式就是使用"拉格朗日乘数法"构建出来的"总控方程",我们称之为拉格朗日函数。它的核心目的,是把我们原本要优化的目标(比如"总分最高")和我们必须遵守的约束(比如"学习时间不能超过3小时")巧妙地"粘合"在一起,形成一个单一的、新的函数。这么一来,我们就不再需要分开考虑目标和约束了,只需要专心致志地去优化这个新的、无约束的拉格朗日函数。只要找到了这个新函数的最优解,也就等于找到了原问题的最优解。 2. 符号释义: 3. 逻辑骨架:整个公式的结构是:拉格朗日函数 = 原始目标 + $\lambda$ × (所有约束的总和)。这种结构的美妙之处在于,当你试图优化 $L$ 时,如果你想让原始目标 $h(s_n)$ 变得更好,但这样做会违反约束,那么求和项(惩罚项)就会变大,从而拉低 $L$ 的总值。反之亦然。通过对这个包含了"胡萝卜"(原始目标)和"大棒"(约束惩罚)的新函数求极值(通常是求导数等于零的点),我们就能找到一个完美的平衡点。在这个平衡点上,原始目标在不违反任何约束的前提下,达到了最优。 4. 关系网络: 这里我们将深入剖析论文的几个关键声明部分和参考文献列表,帮助你理解学术研究背后的一些重要理念和规范。 原文翻译:该论文旨在理解学习与智能的基本原理。我们展示了物理学与学习之间的紧密联系,并假设学习也遵循物理定律。这项工作倡导了人工智能安全与伦理的重要性,因为机器学习如同其他引擎或实体一样,服从自然法则。本文提出了一种有原则、有前景的方法,通过理解学习背后的基本法则来设计更安全的人工智能。 高三生解读: 这个部分就像是作者在研究开始前,先向大家表明自己的"三观"。他们不仅仅是在做一个技术研究,更是在思考这个技术背后的哲学和社会责任问题。 原文翻译:该论文包含了文内的理论推导,并且实验结果可以通过公开来源轻易地复现。 高三生解读: 这部分是科学研究的"诚信保证书"。"可复现性"是衡量一项科学研究是否靠谱的核心标准之一。 原文翻译:大型语言模型被用于润色学术写作、搜索参考文献,以及在具体提示下为数学证明提供线索。大型语言模型作为辅助工具非常有帮助,但它仍然不能直接对论文的主要贡献作出贡献。 高三生解读: 这部分是在坦诚地说明,他们在研究中使用了AI助手,并且划清了AI和人脑的功劳界限。 原文翻译:[这是一个参考文献列表,列出了作者在研究中引用和参考的其他学术著作和论文。例如第一条是关于"最优实验设计"的一本书,第二条是关于"深度学习的统计力学"的一篇期刊文章。] 高三生解读: 这个长长的列表就是作者的"致敬名单"和"知识地图"。每一篇伟大的学术论文都不是凭空产生的,而是站在前人的肩膀上。这个部分的作用至关重要: 简单来说,这个部分告诉我们,科学的进步是建立在交流、借鉴和批判之上的集体智慧的结晶。
1 更普遍地说,一束光从A点传播到B点会选择一条光学路径是平稳的(即最大、最小、极值)路径,数学上表示为 $T = \int_A^B dt = \mathrm{stationary}$。
主要假设 (通过平稳性学习)
物理学原理回顾
费马原理 / 最短时间原理 (光学) (Born & Wolf, 2019)
哈密顿原理 / 最小作用量原理 (力学) (Hamilton, 1834)
哈密顿系统
评论:尽管在实践中由于模型错误设定的风险,用参数化限制来约束模型类别是不可取的,但我们发现进行解析分析有助于说明高效学习的某些属性(例如,规划是重要的)。
评论:鉴于奖励假设,我们将在该节中看到,推导不会产生像公式4中 $L$ 那样的具体拉格朗日量,因为它被奖励所取代。
3.1 参数化假设给出解析路径推导
要以最有效的方式持续学习,规划是必要的。
3.2 强化学习作为随机近似
从拉格朗日量推导贝尔曼方程
3.3 从拉格朗日量推导经典算法
将上述问题转化为一个带拉格朗日算子的约束优化问题:
$L(\{s\}, \{a\}, \lambda) = h(s_n) + \sum_{k=0}^{n-1} [r(s_k, a_k) + \lambda_{k+1}^T(f(s_k, a_k) - s_{k+1})]$
论文附录内容深度解读
伦理声明 (ETHICS STATEMENT)
可复现性声明 (REPRODUCIBILITY STATEMENT)
关于大型语言模型的使用 (THE USE OF LARGE LANGUAGE MODELS)
参考文献 (REFERENCES)
2 我们注意到不同的学习问题和不同的算法有不同的学习速率。在给定的具体设置和算法下它是可导出的,尽管不是先验已知的。
3 配置包括但不限于模型参数、初始化、架构选择。
4 未来的工作可以研究当样本不包含相似信息内容时如何量化时间。