基础模型发现了什么？使用归纳偏见探索世界模型

引言：从开普勒到牛顿，AI能重走科学之路吗？

大家好，我是本文的作者之一。今天，我想和大家聊聊一个我们团队深感着迷的问题：当一个AI模型，比如我们常说的"基础模型"（Foundation Model），学会了精准预测之后，它是否真正"理解"了其背后的深层规律？

让我们穿越回几百年前。天文学家开普勒通过海量观测数据，发现了行星运动的几何规律，能够精准预测行星在夜空中的位置。这本身就是一项伟大的成就。但后来，牛顿更进一步，他没有停留在"是什么"的层面，而是提出了牛顿力学，解释了"为什么"行星会这样运动。他的理论不仅能解释行星轨道，还能统一解释从苹果落地到宇宙天体的各种物理现象。这，就是从"精准预测"到"深刻理解"的飞跃，我们称之为构建了一个"世界模型"（World Model）。

回到今天，我们强大的基础模型，无论是语言模型还是科学计算模型，都在序列预测任务上表现惊人。它们能预测下一个词、下一个蛋白质结构，或者像我们的实验一样，预测行星的下一个位置。这引出了一个核心问题：这些模型是否也像牛顿一样，在学习预测的过程中，悄然构建了一个关于现实世界的、可泛化的"世界模型"？还是说，它们仅仅是更高级的"开普勒"，虽然预测精准，但对背后的物理或逻辑一无所知？

这篇论文，就是我们为了回答这个问题而进行的一次探索。我们开发了一种方法，我们称之为"归纳偏见探针"（Inductive Bias Probe），来检测基础模型是否形成了我们所假设的世界模型。剧透一下：结果可能和你想的不太一样。

静态示意图：科学发现的两个阶段

这个简单的图示描绘了从数据模式（开普勒）到基本定律（牛顿）的认知飞跃。我们想知道，AI目前处于哪个阶段？

我们的框架：如何"拷问"AI的内心世界？

要判断一个模型是否学到了世界模型，直接剖析它庞大的神经网络参数（权重）就像试图通过分析每一粒沙子来理解整个沙滩，极其困难。所以，我们换了一个思路：不看它"是什么"，而是看它"怎么学"。

这个思路的核心就是"归纳偏见"（Inductive Bias）。听起来很学术，但我们可以用一个生活化的类比来理解它。想象一位经验丰富的大厨，你给他一些他从未见过的食材，他依然能凭借自己对烹饪原理的理解（他的"归纳偏见"），创造出一道美味的菜肴。他的"偏见"是偏向于和谐的味道、合适的火候和精美的摆盘。相反，一个只会背菜谱的学徒，面对新食材可能就束手无策了。

同样，一个真正掌握了世界模型的基础模型，在面对一个全新的、只有少量数据的小任务时，它的"归纳偏见"应该会引导它做出符合这个世界模型的推断。这就是我们"归纳偏见探针"的核心思想：我们不直接看模型的内部结构，而是通过它如何从少量新信息中学习和外推，来揭示其内在的世界模型。

归纳偏见探针 (Inductive Bias Probe)

我们的测试流程（如下图所示）可以概括为三个步骤：

生成新任务: 我们基于一个已知的世界模型（比如牛顿力学）创建许多小型的、合成的数据集。每个数据集都代表一个与该世界模型一致的新任务。
模型微调: 我们让基础模型在这些小型数据集上进行微调（fine-tune），观察它学到了什么样的函数或规律。
对比与评估: 我们比较模型学到的规律和世界模型本身所允许的规律。如果两者高度一致，说明模型的归纳偏见与该世界模型相符。

动画1：归纳偏见探针是如何工作的？

这个动画模拟了我们的探针流程。左侧是基于"世界模型"（例如，所有形状都必须是圆形）生成的多个小型训练集。我们将这些训练集喂给中间的"基础模型"。右侧展示了模型学习后产生的函数（它对新输入的预测）。点击"开始探测"，观察模型学习到的函数是否都符合"圆形"这个世界模型规则。

状态: 待开始

符合世界模型的函数数量: 0 / 5

核心实验：当Transformer学习宇宙

为了将理论付诸实践，我们进行了一个非常直观的实验：训练一个Transformer模型来预测行星的轨道。我们生成了大量不同太阳系的行星运行轨迹数据，这些数据完全遵循牛顿的万有引力定律。然后，我们让模型学习去预测序列中的下一个行星坐标。

结果呢？模型做得非常好！它预测的轨道非常精准，R²值高达0.9999，生成的轨道几乎与真实轨迹完美重合。从表面上看，它俨然是一个天文学的"开普勒"。

动画2：预测轨迹 vs. 理解力

动画展示了一颗行星的轨道。点击"模型预测"，模型会画出精准的轨迹，但这只是"开普勒式"的表面预测。现在，我们给模型一个新任务：预测每个点的"引力"大小和方向。点击"模型预测力"，看看它预测的力（紫色箭头）是什么样子。再点击"真实牛顿力"，对比一下真正的引力（青色箭头）。

当前显示: 模型预测力

从预测轨迹到预测"力"

精准的轨道预测并不能证明它理解了物理。于是，我们用"归纳偏见探针"对它进行了"拷问"。我们给模型一个新的、小规模的任务：不再是预测位置，而是预测行星在轨道上每一点所受到的"力"——这是牛顿力学的核心概念。如果模型真的内化了牛顿力学，它应该能很容易地从轨道数据中学到这个简单的概念。

然而，结果令人震惊。如上面的动画所示，模型预测的力矢量（force vectors）混乱不堪，与真实、指向太阳的引力矢量大相径庭。更进一步，我们使用一种名为"符号回归"（Symbolic Regression）的技术，试图从模型预测的力中反推出它"心目中"的引力公式。牛顿的引力公式简洁而优美：

\[ F = G \frac{m_1 m_2}{r^2} \]

公式解读: 行星受到的引力（F）与太阳质量（m₁）、行星质量（m₂）的乘积成正比，与它们之间距离（r）的平方成反比。G是一个常数。

而我们的Transformer模型"发明"的力学定律是什么样的呢？请看这个例子：

\[ F \propto \left( \sin\left(\frac{1}{\sin(r - 0.24)}\right) + 1.45 \right) \times \frac{1}{r + m_2} \]

公式解读: 这个公式毫无物理意义，充满了奇怪的正弦函数和与物理直觉相悖的项。它看起来更像是在"硬凑"数据，而不是一个普适的规律。

这揭示了一个深刻的问题：模型并没有学会牛顿力学，而是学到了一套复杂的、仅在特定任务（预测轨迹）上有效的"启发式捷径"（heuristics）。它是一个数据驱动的模仿者，而不是一个理论驱动的思考者。更糟糕的是，当我们用不同星系的数据集去微调它时，它为每个星系都"发明"了一套不同的、同样无意义的物理定律。它没有找到那个统一的、优雅的宇宙法则。

更广泛的验证：在棋盘和格子上演的同样故事

物理世界的例子可能有些极端。那么在规则更清晰、更离散的领域，比如棋盘游戏和简单的格子世界里，情况会好一些吗？我们继续用我们的探针，在另外两个领域进行了测试：

格子世界 (Lattice): 想象一个智能体在一个一维线段上移动，只能向左、向右或保持不动，且不能移出边界。这是一个状态极其简单的世界模型。

奥赛罗棋 (Othello): 一个经典的8x8棋盘游戏，规则明确。每一步棋后的棋盘状态（state）都是确定的。

我们训练了多种序列模型（包括RNN, LSTM, Transformer, Mamba等）来预测这两种任务的下一步合法操作。和物理实验一样，它们在"预测下一步"这个本职工作上都表现优异，几乎总能给出合法的移动或落子。

奥赛罗棋盘上的"捷径"

但当我们用探针测试它们对"棋盘状态"这个世界模型的归纳偏见时，同样的问题出现了。模型似乎并没有真正建立一个对整个8x8棋盘的内在表征。它们学到了一个更"经济"的捷径。

动画3：模型眼中的奥赛罗棋盘

这个动画展示了模型在学习预测"整个棋盘状态"时的表现。左边是真实的棋盘状态。右边是模型微调后预测的棋盘。你会发现，模型预测的棋盘经常会有错误（红圈标出）。但有趣的是，点击"检查合法走法"，你会看到尽管棋盘预测错了，但它预测的合法走法（高亮区域）却和真实棋盘完全一样！

棋盘预测准确率: --%

合法走法预测准确率: --%

这个现象揭示了模型真正的归纳偏见：它偏向于学习一个足以完成当前任务（预测合法走法）的、被"粗粒化"了的状态表征，而不是完整的、真实的世界模型。 就像一个学生，为了应付考试，他不去理解整个知识体系，而是只背诵那些"考纲"里会考的知识点。他能考高分，但你让他用这些知识解决一个新问题，他就无能为力了。

我们通过两个新指标进一步量化了这一点：R-IB (尊重状态的归纳偏见) 和 D-IB (区分状态的归纳偏见)。简单来说，R-IB衡量模型是否会错误地把同一个状态当成不同状态处理，而D-IB衡量模型是否会错误地把不同状态混为一谈。在奥赛罗实验中，我们发现模型的D-IB得分很低，特别是对于那些棋盘不同但合法走法相同的状态，模型几乎无法区分它们。

结论：基础模型发现了什么？它发现了"捷径"

回到我们最初的问题：基础模型究竟发现了什么？我们的研究表明，至少在目前，它们发现的往往不是我们所期望的、深刻而普适的"世界模型"，而是完成预训练任务的"任务特定的启发式捷径"。

就像一个只为通过考试而学习的学生，模型掌握了精湛的"应试技巧"，却缺乏对知识本身的融会贯通。它能给出正确答案，但往往是"知其然，而不知其所以然"。

这一发现具有重要的现实意义。如果我们盲目相信一个在特定任务上表现优异的模型已经"理解"了某个领域，并将其应用于需要真正泛化能力的新场景时，可能会导致灾难性的失败。例如，一个学会了根据历史数据预测药物分子效果的模型，可能并没有理解化学原理，只是记住了某些分子结构与结果的表面相关性。用它来设计全新的药物，风险可想而知。

我们的工作提供了一个新的视角和一套可行的工具——归纳偏见探针——来审视和评估基础模型的内在能力。一个好的迹象是，我们发现，在探针测试中得分更高的模型，在迁移到相关新任务时也表现得更好。这说明，朝着拥有正确归纳偏见的方向努力，是通往更强大、更可靠AI的正确道路。

未来的路还很长。如何让模型从"开普勒"真正成长为"牛顿"？如何设计出能自动发现模型真实世界模型的工具，而不是仅仅验证我们预设的模型？这些都是等待我们去探索的、激动人心的前沿课题。感谢大家的阅读。

技术附录：深入理解我们的评估指标

本部分为希望深入了解我们研究方法细节的读者提供更技术性的解释。

R-IB 和 D-IB：衡量归纳偏见的两个维度

为了在离散状态空间（如格子世界和奥赛罗棋）中量化模型的归纳偏见，我们设计了两个核心指标：

1. 尊重状态的归纳偏见 (R-IB)

R-IB (Respecting-State Inductive Bias) 衡量的是，当两个不同的输入序列 `x` 和 `x'` 实际上对应着同一个真实世界状态时（例如，在奥赛罗棋中通过不同落子顺序达到同一个棋盘布局），模型在被微调后，给予它们的预测是否也趋于一致。其公式为：

\[ \text{R-IB} = \mathbb{E}_{X_i, X_j, D} [ \mathbf{1}(\hat{m}_D(X_i) = \hat{m}_D(X_j)) \mid \phi(X_i) = \phi(X_j) ] \]

解读: 这个公式计算的是，在给定两个输入 `Xi` 和 `Xj` 映射到同一个真实状态 `φ(X)` 的条件下，经过随机任务 `D` 微调后的模型 `m_hat` 对它们做出相同预测的概率期望。R-IB值越高（越接近1），说明模型越能"尊重"状态的同一性，不会错误地分裂同一个状态。

2. 区分状态的归纳偏见 (D-IB)

D-IB (Distinguishing-State Inductive Bias) 则从反方向衡量：当两个输入 `x` 和 `x'` 对应着不同的真实世界状态时，模型的预测是否也能够区分它们。其公式为：

\[ \text{D-IB} = 1 - \mathbb{E}_{X_i, X_j, D} [ \mathbf{1}(\hat{m}_D(X_i) = \hat{m}_D(X_j)) \mid \phi(X_i) \neq \phi(X_j) ] \]

解读: 这个公式计算的是，在给定两个输入 `Xi` 和 `Xj` 映射到不同真实状态的条件下，模型对它们做出不同预测的概率期望。D-IB值越高（越接近1），说明模型越能"区分"开不同的状态，不会将它们混淆。

一个理想的模型应该同时具有高R-IB和高D-IB。我们的实验发现，很多模型虽然R-IB尚可，但在D-IB上表现不佳，这正是它们采取"捷径"策略的体现。

静态示意图：R-IB 与 D-IB 的概念

此图模拟了模型对不同输入的分类结果。每种颜色代表一个真实状态。左图展示了低 R-IB 的情况：模型将属于同一真实状态（黄色）的输入错误地分到了不同的类别。右图展示了低 D-IB 的情况：模型将属于不同真实状态（蓝色和绿色）的输入错误地合并到了同一个类别。

连续空间中的探针：外推可预测性

在处理像轨道力学这样的连续状态空间时，我们使用了一种更通用的方法，称为"外推可预测性"（Extrapolative Predictability）。其核心思想是：如果模型真正理解了世界模型，那么对于状态相似的两个输入点，模型在各种新任务上的预测也应该是相似或可互相预测的。

我们定义了"神谕模型"（Oracle Model），这是一个理想化的模型，它直接访问真实的牛顿力学状态向量进行预测。然后，我们比较我们的Transformer模型和神谕模型在外推行为上的差异。如果Transformer模型的归纳偏见与牛顿力学一致，那么它的外推可预测性曲线应该与神谕模型的曲线（一条45度线）重合。我们的实验结果（如下图所示）表明，两者存在巨大偏差。

静态示意图：归纳偏见校准曲线

这张图展示了轨道力学实验的结果。横轴是基于真实牛顿状态的"神谕模型"的预测相似度，纵轴是我们训练的Transformer模型的预测相似度。如果模型学到了牛顿力学，数据点应该紧密分布在45度对角线（绿色虚线）上。然而，实际结果（紫色点）严重偏离了对角线，表明其归纳偏见与牛顿力学不符。

探索更多交互

动画4：格子世界 (Lattice Problem)

这是一个简单的一维世界。智能体（紫色方块）可以向左（L）、向右（R）或不动（⊥）。它不能移出边界。这个简单的环境让我们能够精确地测试模型是否能理解"状态"和"边界"这两个基本概念。

当前状态 (位置): 3 / 5

上一步操作: 无

动画5：启发式捷径 vs. 世界模型

这个动画用一个比喻来解释模型如何学习捷径。目标是从A点到B点。学习"世界模型"（蓝色路径）意味着理解整个地形，可以应对任何变化。学习"捷径"（紫色路径）只是记住了最快的一条路。当出现障碍物时，只有理解世界模型的智能体才能找到新路。

世界模型智能体状态: 待命

捷径智能体状态: 待命