如何利用TRANSFORMER推导CA潜在规则

作者: Jaime A. Berkovich, Noah S. David, Markus J. Buehler

机构: Massachusetts Institute of Technology (MIT)

引言:在像素宇宙中寻找创世的密码

大家好,我是Jaime Berkovich。在麻省理工学院的实验室里,我的同事们和我经常思考一个看似简单却又无比深邃的问题:复杂的生命和宇宙,是否源于极其简单的规则?

想象一个巨大的、由无数像素点构成的宇宙。每个像素只有两种状态,比如"生"或"死"(黑或白)。下一秒钟,一个像素是生是死,完全取决于它周围邻居的状态。这就是所谓的"元胞自动机"(Cellular Automata, CA)——一个由简单局部规则驱动的,能够涌现出惊人复杂性的微型宇宙。著名的"康威生命游戏"就是其中最迷人的例子之一。从几个简单的像素开始,你可能会看到稳定的"生物",移动的"滑翔机",甚至是能自我复制的复杂结构,一切都仿佛有了生命。

这种魅力让我着迷,但也带来了巨大的挑战。我们能轻易地设定规则,然后观察结果;但反过来呢?如果我们只观察到一个现象——比如癌细胞的扩散、雪花的形成、甚至交通的拥堵——我们能否反向推断出驱动这一切的底层简单规则?这个过程,我们称之为"逆问题",是科学发现的核心。传统上,这需要大量的试错和人类的直觉,非常困难。

更进一步,即使我们知道了规则,预测这个微型宇宙在很远的未来会是什么样子,也常常是"计算上不可约"的。这意味着,除了老老实实地一步一步模拟,没有捷径可走。这限制了元胞自动机作为物理系统定量预测模型的应用。

于是,一个大胆的想法在我脑中形成:我们能训练一个AI,让它成为破解这些微型宇宙的"宇宙学家"吗?它不仅要能像物理学家一样,根据规则(物理定律)预测未来(正向问题),更要能像侦探一样,根据现象(观测数据)推断出规则(逆问题)。

这就是我们创造 AutomataGPT 的初衷。我们没有使用传统的科学计算方法,而是转向了近年来在语言领域大放异彩的Transformer模型——也就是GPT系列背后的核心技术。我们的赌注是:如果Transformer能从海量文本中学会人类语言的复杂语法和逻辑,那么它是否也能学会元胞自动机这个"视觉语言"的语法和逻辑?

这篇分享,就是关于我们如何训练AutomataGPT,以及它带给我们的惊喜发现。这不仅仅是一个关于AI和算法的故事,更是一次探索"AI如何辅助科学发现"的旅程。

两大核心挑战:预测未来与揭示过去

为了系统地探索AI理解元胞自动机的能力,我们将任务拆解为两个核心问题,这就像是考验一位科学家的两种基本功。

挑战一:正向问题 (The Forward Problem) - 成为预言家

想象一下,我给了你一本象棋的规则书(规则矩阵,RM),以及一个当前的棋盘布局(初始条件,IC)。然后我问你:"根据规则,下一步棋盘会变成什么样(下一个状态,GS2)?"

这就是正向问题。它的本质是"应用规则"。对于计算机来说,这很简单,只需按部就班地执行指令即可。但我们的问题是:一个Transformer模型,在没有被硬编码告知"如何应用规则"的情况下,能否仅通过观察大量的"规则+初始状态 -> 结果"的例子,自己学会这个应用规则的过程

这好比教一个孩子下棋,不是告诉他"马走日,象飞田",而是让他看成千上万盘棋局的演变,自己领悟出棋子的走法。如果AutomataGPT能做到这一点,就意味着它不仅仅是记忆,而是在其神经网络内部形成了一个关于"元胞自动机宇宙"如何运转的通用模型。

动画1:正向问题模拟器 - 预测未来

类比:这就像一位厨师(AI),拿到一份食谱(规则矩阵)和一堆食材(初始棋盘),他的任务是精确地做出下一道菜(下一个状态)。

状态: 准备就绪 | 预测准确率: N/A

挑战二:逆问题 (The Inverse Problem) - 成为侦探

现在,让难度指数级飙升。我给你看两张连续的棋盘照片——第一秒的布局和第二秒的布局。但我不告诉你象棋的规则。你的任务是,仅凭这两张照片,推断出"马走日,象飞田"这些隐藏的规则。

这就是逆问题,科学发现的精髓所在。给定一个初始状态(IC)和它演化后的状态(GS2),我们能反推出那个神秘的规则矩阵(RM)吗?

这极其困难,因为可能存在很多套不同的规则,都能解释从IC到GS2的转变。我们想知道的是,AutomataGPT能否找到那个"真正"的规则?或者,更有趣的是,它能否找到一个虽然跟我们的标准答案不一样,但同样能完美解释现象的"等效规则"?这种能力,我们称之为模型的"创造性"。

如果AutomataGPT能解决逆问题,那它的意义将远超元胞自动机本身。这意味着我们有了一种潜力巨大的新工具:我们可以将现实世界中的复杂系统(如生物组织发育、材料晶体生长)的观测数据输入给它,让它帮助我们发现这些系统背后未知的、简洁的局部规律

动画2:逆问题模拟器 - 推理规则

类比:这就像一位宇宙侦探,只看到了宇宙的"昨天"和"今天",就要推断出支配这个宇宙运行的"物理定律"。

状态: 等待推断

推断规则的应用准确率: N/A

惊人的发现:从"死记硬背"到"融会贯通"

为了测试AutomataGPT,我们设计了一系列实验。我们没有一次性给它看所有可能的规则(总共有 $2^{18}$ 或 262,144 种!),而是逐步增加它"学习"的规则数量。我们分别用 2 套、10 套和 100 套规则训练了不同版本的AutomataGPT,然后用它从未见过的全新规则来对它进行"高考"。

预言家的成长之路:规则越多,预测越准

在正向问题上,结果清晰明了。当模型只学习了 2 套或 10 套规则时,它的表现平平,就像一个只刷了几套题就上考场的学生,遇到新题型就容易出错。它的预测准确率分布很广,很多时候错得离谱。

但当我们把训练规则的数量增加到 100 套时(这仍然只占所有可能规则的不到 0.04%),奇迹发生了。模型的表现发生了质的飞跃。对于全新的、从未见过的规则,它能达到 **98.5% 的完美单步预测率**!这意味着在200次测试中,它只有3次出错了微小的细节。几乎所有的预测,它都做到了像素级的完美。

这证明了我们的猜想:AutomataGPT 不再是"死记硬背"特定规则下的模式,而是真正学会了如何"阅读"并"执行"任何给定的规则。它内化了一套通用的元胞自动机"物理引擎"。

侦探的养成:从"生搬硬套"到"创造性推理"

逆问题的结果则更加深刻和有趣。我们用了两个指标来评价它的"侦探能力":

  • 规则矩阵推断准确率 (ARMI): 它猜出的规则手册,和我们的标准答案一模一样吗?
  • 推断规则应用准确率 (AIRMA): 就算规则手册不一样,用它猜的规则来演化初始状态,得到的结果和真实结果一样吗?

同样地,随着训练规则从 2 套增加到 100 套,这两个准确率都显著提升。更重要的是,我们发现 AIRMA 总是高于 ARMI。这意味着,AutomataGPT 经常能找到那些我们称之为**"简并解"**或"等效规则"的答案——这些规则在形式上与标准答案不同,但在功能上,对于给定的问题,它们是完美等价的。

这就像两个厨师,一个用"盐、糖、醋",另一个用"酱油、味醂",但最终做出的糖醋排骨味道一模一样。AutomataGPT 成了一位懂得变通和创造的大厨!

摆脱偏见:知识越广,思想越自由

我们还想知道一个更深层的问题:AutomataGPT的推理是否受限于它学过的知识?也就是说,当它面对一个与它所学规则"画风"迥异的新问题时,它会不会表现更差?我们用一个叫做 DRM (Dissimilarity to training Rules Matrix) 的度量来量化这种"画风差异"。

动画3:规则空间的可视化 - 摆脱思维定式

类比:想象一个知识宇宙,每个点是一种规则。训练过的规则是已知的星系。一个新问题是一个未知的星球。DRM就是这个星球到最近星系的距离。模型的能力,就是探索未知星球的能力。

状态: 已生成训练规则

新规则与训练集的平均距离(DRM): N/A

结果让我们非常振奋。对于只学了少量规则的模型,它的表现确实和DRM强相关——问题越"陌生",它错得越离谱。这是一种"归纳偏见"

但是,对于学习了100套规则的"博学"模型,这种相关性几乎消失了!特别是看它的功能准确率(AIRMA),无论新问题有多么"离经叛道"(高DRM),它都能稳定地给出高质量的解答。这意味着,广泛的学习让AutomataGPT摆脱了思维定式,获得了真正的泛化和创造能力。

当面对一个"陌生"问题时,它更有可能提出一个与标准答案差异很大的"创造性"等效解。这表明它不是在记忆库里搜索最接近的答案,而是在一个更抽象的层面上进行推理和问题求解。这正是我们希望在AI科学家身上看到的品质。

超越像素:开启AI辅助科学发现的新范式

AutomataGPT 的成功,其意义远不止于玩转元胞自动机。它为我们描绘了一幅激动人心的蓝图,一个关于未来科学研究可能样貌的蓝图。

我们证明了,一个强大的AI模型可以从纯粹的合成数据中,学会推断和执行一个动态系统的基本规则。这为解决现实世界的科学难题提供了三大优势:

  1. 告别昂贵的数据采集: 传统AI模型常常需要海量的、昂贵的真实世界数据。而AutomataGPT的训练完全基于计算机生成的合成数据。这意味着我们可以用极低的成本,为它创造一个庞大而多样的"虚拟实验室"来学习。
  2. 超高的计算效率: 元胞自动机本质上是高度并行的,非常适合在现代GPU上进行大规模加速。一旦我们用AutomataGPT从真实系统中"提取"出CA规则,我们就可以用这套规则进行高效、大规模的模拟预测。
  3. 从"黑箱"到"白箱"的可解释性: 许多AI模型是"黑箱",我们知道它的预测结果,但不知道为什么。AutomataGPT不同,它给出的答案是一套清晰的、人类可以理解的**"规则集"**。科学家可以分析这些规则,从而更深刻地理解系统背后的机制,甚至发现新的物理定律或生物学原理。

动画4:潜在应用 - 模拟生物生长

想象一下,我们可以将细胞迁移的显微镜图像输入AutomataGPT,让它推断出细胞间相互作用的简单规则。这可能彻底改变我们研究组织工程、癌症发展和胚胎发育的方式。

状态: 准备就绪 | 演化步数: 0

更令人遐想的是,元胞自动机和描述连续物理世界的偏微分方程(PDEs)之间存在着深刻的数学联系。早在1984年,就有研究者指出了如何将CA规则转化为PDEs。这意味着,我们的工作可能为搭建一座桥梁:

动画5:概念展望 - 从规则到方程

AutomataGPT从观测数据中推断出离散的CA规则,然后数学工具可以将这些规则翻译成连续的物理方程(PDE)。这可能成为一条发现新物理定律的捷径。

左侧:离散元胞自动机演化 | 右侧:对应的连续场(概念图)

结论:迈向人机共生的科学未来

AutomataGPT 的旅程,是从一个关于像素小世界的好奇心开始的。但最终,它指向了一个宏大的愿景:创造出能够理解世界生成机制、并以可解释的方式与人类科学家合作的AI。

我们展示了,通过在更广阔的"规则空间"中进行预训练,Transformer模型可以超越简单的模式匹配,获得解决正向和逆向问题的泛化能力。它不再仅仅是拟合数据,而是能够恢复数据背后的"生成引擎"。

这不仅仅是AI技术的又一次胜利,它可能预示着一种全新的科研范式。在这个范式中,AI不再是单纯的工具,而是我们思想的延伸,是我们探索未知宇宙的共生伙伴。我们期待着,未来的AutomataGPT能够在更复杂的维度、状态和尺度上,帮助我们解读从原子到星系的每一个谜题。

附录:技术细节深潜

本节为对技术细节感兴趣的读者提供更深入的解释。

模型架构与超参数

AutomataGPT 是一个基于 `x-transformers` 库构建的解码器-专用(decoder-only)Transformer模型。其核心是一系列堆叠的Transformer块,每个块都包含一个多头自注意力机制和一个前馈神经网络。

模型架构示意图

Input Sequence Embedding & Pos. Encoding Transformer Blocks Output

我们使用的主要超参数如下表所示,这些参数在GPU(NVIDIA RTX A4000)内存限制下进行了优化。

超参数
num_tokens (词汇表大小)22
max_seq_len (最大序列长度)555
dim (d_model, 模型维度)256
depth (N_layers, 层数)6
heads (h, 注意力头数)4
优化器Adam
学习率1e-4
Batch Size50

数据表示与预处理

为了让Transformer能理解元胞自动机,我们必须将二维的网格和规则矩阵"翻译"成它能处理的一维序列。我们首先将每个矩阵展平成一个数字列表,然后用特殊标记拼接成一个长字符串。

例如,对于正向问题,输入格式如下:

[BOS] [R] 1 0 1 ... [BIC] 0 1 1 ... [EIC] [BGS2] ??? [EGS2] [EOS]

其中 [BOS], [EOS], [R], [BIC], [EIC] 等都是我们自定义的特殊 Token,用于告诉模型序列的不同部分代表什么(规则、初始条件、下一个状态等)。模型的任务就是预测 `???` 部分的内容。对于逆问题,我们会提供 IC 和 GS2,让模型预测 RM 部分。

规则矩阵 (RM) 的形式化

我们研究的是二维、二元(细胞状态为0或1)、确定性的元胞自动机,其邻域为摩尔邻域(即周围的8个邻居)。

一个细胞的下一个状态取决于它当前的状态(0或1)以及它8个邻居中状态为1的数量(0到8个,共9种可能)。因此,总共有 $2 \times 9 = 18$ 种不同的局部情况,我们称之为"元状态"(metastate)

规则矩阵(RM)就是一个 $2 \times 18$ 的二进制矩阵。每一列对应一个元状态,每一行对应细胞的下一个可能状态(0或1)。由于规则是确定性的,每列中只有一个元素为1,表示该元状态唯一确定的下一个状态。

规则矩阵 (2x18) 结构

Metastates (18 total) Next State State=0 0 nbrs=1 ... 8 nbrs=1 State=1 0 nbrs=1 ... 8 nbrs=1 0 1 0 1 1 0 1 0 0 1 0 1
示例:紫色高亮区域表示,当一个细胞状态为0且有0个邻居为1时,它的下一个状态将是1。

关键性能指标 (公式)

我们在研究中定义了几个关键的数学公式来量化模型的性能。

1. GS2 推断准确率 ($AGS2I$):

用于衡量正向问题的预测准确性。它计算的是模型预测的下一个状态(GS2)中,与真实GS2相比,正确预测的像素(token)所占的比例。

\\[ AGS2I = \frac{\gamma_c}{\gamma_t} \\]

其中,$\gamma_c$ 是正确推断的GS2 token数量,$\gamma_t$ 是GS2的总token数量(对于16x16的网格,为256)。

2. 规则矩阵推断准确率 ($ARMI$):

用于衡量逆问题中规则推断的"字面"准确性。如果推断出的RM能够完美复现GS2,则准确率为1。否则,它就是推断RM中与真实RM相比,正确token的比例。

\\[ ARMI = \begin{cases} 1, & \text{if inferred RM yields perfect GS2} \\ \frac{\rho_c}{\rho_t}, & \text{otherwise} \\ 0, & \text{if inferred RM is illogical} \end{cases} \\]

其中,$\rho_c$ 是正确推断的RM token数量,$\rho_t$ 是RM的总token数量(36)。

3. 推断规则矩阵应用准确率 ($AIRMA$):

用于衡量逆问题中推断规则的"功能"准确性。它不关心推断的RM是否与真实RM一致,只关心用这个推断的RM去演化IC时,能多大程度上复现真实的GS2。

\\[ AIRMA = \frac{\gamma'_c}{\gamma_t} \\]

其中,$\gamma'_c$ 是使用推断出的RM计算GS2时,与真实GS2相比,正确的token数量。