如何利用TRANSFORMER推导CA潜在规则

引言：在像素宇宙中寻找创世的密码

大家好，我是Jaime Berkovich。在麻省理工学院的实验室里，我的同事们和我经常思考一个看似简单却又无比深邃的问题：复杂的生命和宇宙，是否源于极其简单的规则？

想象一个巨大的、由无数像素点构成的宇宙。每个像素只有两种状态，比如"生"或"死"（黑或白）。下一秒钟，一个像素是生是死，完全取决于它周围邻居的状态。这就是所谓的"元胞自动机"（Cellular Automata, CA）——一个由简单局部规则驱动的，能够涌现出惊人复杂性的微型宇宙。著名的"康威生命游戏"就是其中最迷人的例子之一。从几个简单的像素开始，你可能会看到稳定的"生物"，移动的"滑翔机"，甚至是能自我复制的复杂结构，一切都仿佛有了生命。

这种魅力让我着迷，但也带来了巨大的挑战。我们能轻易地设定规则，然后观察结果；但反过来呢？如果我们只观察到一个现象——比如癌细胞的扩散、雪花的形成、甚至交通的拥堵——我们能否反向推断出驱动这一切的底层简单规则？这个过程，我们称之为"逆问题"，是科学发现的核心。传统上，这需要大量的试错和人类的直觉，非常困难。

更进一步，即使我们知道了规则，预测这个微型宇宙在很远的未来会是什么样子，也常常是"计算上不可约"的。这意味着，除了老老实实地一步一步模拟，没有捷径可走。这限制了元胞自动机作为物理系统定量预测模型的应用。

于是，一个大胆的想法在我脑中形成：我们能训练一个AI，让它成为破解这些微型宇宙的"宇宙学家"吗？它不仅要能像物理学家一样，根据规则（物理定律）预测未来（正向问题），更要能像侦探一样，根据现象（观测数据）推断出规则（逆问题）。

这就是我们创造 AutomataGPT 的初衷。我们没有使用传统的科学计算方法，而是转向了近年来在语言领域大放异彩的Transformer模型——也就是GPT系列背后的核心技术。我们的赌注是：如果Transformer能从海量文本中学会人类语言的复杂语法和逻辑，那么它是否也能学会元胞自动机这个"视觉语言"的语法和逻辑？

这篇分享，就是关于我们如何训练AutomataGPT，以及它带给我们的惊喜发现。这不仅仅是一个关于AI和算法的故事，更是一次探索"AI如何辅助科学发现"的旅程。

两大核心挑战：预测未来与揭示过去

为了系统地探索AI理解元胞自动机的能力，我们将任务拆解为两个核心问题，这就像是考验一位科学家的两种基本功。

挑战一：正向问题 (The Forward Problem) - 成为预言家

想象一下，我给了你一本象棋的规则书（规则矩阵，RM），以及一个当前的棋盘布局（初始条件，IC）。然后我问你："根据规则，下一步棋盘会变成什么样（下一个状态，GS2）？"

这就是正向问题。它的本质是"应用规则"。对于计算机来说，这很简单，只需按部就班地执行指令即可。但我们的问题是：一个Transformer模型，在没有被硬编码告知"如何应用规则"的情况下，能否仅通过观察大量的"规则+初始状态 -> 结果"的例子，自己学会这个应用规则的过程？

这好比教一个孩子下棋，不是告诉他"马走日，象飞田"，而是让他看成千上万盘棋局的演变，自己领悟出棋子的走法。如果AutomataGPT能做到这一点，就意味着它不仅仅是记忆，而是在其神经网络内部形成了一个关于"元胞自动机宇宙"如何运转的通用模型。

动画1：正向问题模拟器 - 预测未来

类比：这就像一位厨师（AI），拿到一份食谱（规则矩阵）和一堆食材（初始棋盘），他的任务是精确地做出下一道菜（下一个状态）。

状态: 准备就绪 | 预测准确率: N/A

挑战二：逆问题 (The Inverse Problem) - 成为侦探

现在，让难度指数级飙升。我给你看两张连续的棋盘照片——第一秒的布局和第二秒的布局。但我不告诉你象棋的规则。你的任务是，仅凭这两张照片，推断出"马走日，象飞田"这些隐藏的规则。

这就是逆问题，科学发现的精髓所在。给定一个初始状态（IC）和它演化后的状态（GS2），我们能反推出那个神秘的规则矩阵（RM）吗？

这极其困难，因为可能存在很多套不同的规则，都能解释从IC到GS2的转变。我们想知道的是，AutomataGPT能否找到那个"真正"的规则？或者，更有趣的是，它能否找到一个虽然跟我们的标准答案不一样，但同样能完美解释现象的"等效规则"？这种能力，我们称之为模型的"创造性"。

如果AutomataGPT能解决逆问题，那它的意义将远超元胞自动机本身。这意味着我们有了一种潜力巨大的新工具：我们可以将现实世界中的复杂系统（如生物组织发育、材料晶体生长）的观测数据输入给它，让它帮助我们发现这些系统背后未知的、简洁的局部规律。

动画2：逆问题模拟器 - 推理规则

类比：这就像一位宇宙侦探，只看到了宇宙的"昨天"和"今天"，就要推断出支配这个宇宙运行的"物理定律"。

状态: 等待推断

推断规则的应用准确率: N/A

惊人的发现：从"死记硬背"到"融会贯通"

为了测试AutomataGPT，我们设计了一系列实验。我们没有一次性给它看所有可能的规则（总共有 $2^{18}$ 或 262,144 种！），而是逐步增加它"学习"的规则数量。我们分别用 2 套、10 套和 100 套规则训练了不同版本的AutomataGPT，然后用它从未见过的全新规则来对它进行"高考"。

预言家的成长之路：规则越多，预测越准

在正向问题上，结果清晰明了。当模型只学习了 2 套或 10 套规则时，它的表现平平，就像一个只刷了几套题就上考场的学生，遇到新题型就容易出错。它的预测准确率分布很广，很多时候错得离谱。

但当我们把训练规则的数量增加到 100 套时（这仍然只占所有可能规则的不到 0.04%），奇迹发生了。模型的表现发生了质的飞跃。对于全新的、从未见过的规则，它能达到 **98.5% 的完美单步预测率**！这意味着在200次测试中，它只有3次出错了微小的细节。几乎所有的预测，它都做到了像素级的完美。

这证明了我们的猜想：AutomataGPT 不再是"死记硬背"特定规则下的模式，而是真正学会了如何"阅读"并"执行"任何给定的规则。它内化了一套通用的元胞自动机"物理引擎"。

侦探的养成：从"生搬硬套"到"创造性推理"

逆问题的结果则更加深刻和有趣。我们用了两个指标来评价它的"侦探能力"：

规则矩阵推断准确率 (ARMI): 它猜出的规则手册，和我们的标准答案一模一样吗？
推断规则应用准确率 (AIRMA): 就算规则手册不一样，用它猜的规则来演化初始状态，得到的结果和真实结果一样吗？

同样地，随着训练规则从 2 套增加到 100 套，这两个准确率都显著提升。更重要的是，我们发现 AIRMA 总是高于 ARMI。这意味着，AutomataGPT 经常能找到那些我们称之为**"简并解"**或"等效规则"的答案——这些规则在形式上与标准答案不同，但在功能上，对于给定的问题，它们是完美等价的。

这就像两个厨师，一个用"盐、糖、醋"，另一个用"酱油、味醂"，但最终做出的糖醋排骨味道一模一样。AutomataGPT 成了一位懂得变通和创造的大厨！

摆脱偏见：知识越广，思想越自由

我们还想知道一个更深层的问题：AutomataGPT的推理是否受限于它学过的知识？也就是说，当它面对一个与它所学规则"画风"迥异的新问题时，它会不会表现更差？我们用一个叫做 DRM (Dissimilarity to training Rules Matrix) 的度量来量化这种"画风差异"。

动画3：规则空间的可视化 - 摆脱思维定式

类比：想象一个知识宇宙，每个点是一种规则。训练过的规则是已知的星系。一个新问题是一个未知的星球。DRM就是这个星球到最近星系的距离。模型的能力，就是探索未知星球的能力。

状态: 已生成训练规则

新规则与训练集的平均距离(DRM): N/A

结果让我们非常振奋。对于只学了少量规则的模型，它的表现确实和DRM强相关——问题越"陌生"，它错得越离谱。这是一种"归纳偏见"。

但是，对于学习了100套规则的"博学"模型，这种相关性几乎消失了！特别是看它的功能准确率（AIRMA），无论新问题有多么"离经叛道"（高DRM），它都能稳定地给出高质量的解答。这意味着，广泛的学习让AutomataGPT摆脱了思维定式，获得了真正的泛化和创造能力。

当面对一个"陌生"问题时，它更有可能提出一个与标准答案差异很大的"创造性"等效解。这表明它不是在记忆库里搜索最接近的答案，而是在一个更抽象的层面上进行推理和问题求解。这正是我们希望在AI科学家身上看到的品质。

超越像素：开启AI辅助科学发现的新范式

AutomataGPT 的成功，其意义远不止于玩转元胞自动机。它为我们描绘了一幅激动人心的蓝图，一个关于未来科学研究可能样貌的蓝图。

我们证明了，一个强大的AI模型可以从纯粹的合成数据中，学会推断和执行一个动态系统的基本规则。这为解决现实世界的科学难题提供了三大优势：

告别昂贵的数据采集: 传统AI模型常常需要海量的、昂贵的真实世界数据。而AutomataGPT的训练完全基于计算机生成的合成数据。这意味着我们可以用极低的成本，为它创造一个庞大而多样的"虚拟实验室"来学习。
超高的计算效率: 元胞自动机本质上是高度并行的，非常适合在现代GPU上进行大规模加速。一旦我们用AutomataGPT从真实系统中"提取"出CA规则，我们就可以用这套规则进行高效、大规模的模拟预测。
从"黑箱"到"白箱"的可解释性: 许多AI模型是"黑箱"，我们知道它的预测结果，但不知道为什么。AutomataGPT不同，它给出的答案是一套清晰的、人类可以理解的**"规则集"**。科学家可以分析这些规则，从而更深刻地理解系统背后的机制，甚至发现新的物理定律或生物学原理。

动画4：潜在应用 - 模拟生物生长

想象一下，我们可以将细胞迁移的显微镜图像输入AutomataGPT，让它推断出细胞间相互作用的简单规则。这可能彻底改变我们研究组织工程、癌症发展和胚胎发育的方式。

状态: 准备就绪 | 演化步数: 0

更令人遐想的是，元胞自动机和描述连续物理世界的偏微分方程（PDEs）之间存在着深刻的数学联系。早在1984年，就有研究者指出了如何将CA规则转化为PDEs。这意味着，我们的工作可能为搭建一座桥梁：

动画5：概念展望 - 从规则到方程

AutomataGPT从观测数据中推断出离散的CA规则，然后数学工具可以将这些规则翻译成连续的物理方程（PDE）。这可能成为一条发现新物理定律的捷径。

左侧：离散元胞自动机演化 | 右侧：对应的连续场（概念图）

结论：迈向人机共生的科学未来

AutomataGPT 的旅程，是从一个关于像素小世界的好奇心开始的。但最终，它指向了一个宏大的愿景：创造出能够理解世界生成机制、并以可解释的方式与人类科学家合作的AI。

我们展示了，通过在更广阔的"规则空间"中进行预训练，Transformer模型可以超越简单的模式匹配，获得解决正向和逆向问题的泛化能力。它不再仅仅是拟合数据，而是能够恢复数据背后的"生成引擎"。

这不仅仅是AI技术的又一次胜利，它可能预示着一种全新的科研范式。在这个范式中，AI不再是单纯的工具，而是我们思想的延伸，是我们探索未知宇宙的共生伙伴。我们期待着，未来的AutomataGPT能够在更复杂的维度、状态和尺度上，帮助我们解读从原子到星系的每一个谜题。

附录：技术细节深潜

本节为对技术细节感兴趣的读者提供更深入的解释。

模型架构与超参数

AutomataGPT 是一个基于 `x-transformers` 库构建的解码器-专用（decoder-only）Transformer模型。其核心是一系列堆叠的Transformer块，每个块都包含一个多头自注意力机制和一个前馈神经网络。

模型架构示意图

我们使用的主要超参数如下表所示，这些参数在GPU（NVIDIA RTX A4000）内存限制下进行了优化。

超参数	值
num_tokens (词汇表大小)	22
max_seq_len (最大序列长度)	555
dim (d_model, 模型维度)	256
depth (N_layers, 层数)	6
heads (h, 注意力头数)	4
优化器	Adam
学习率	1e-4
Batch Size	50

数据表示与预处理

为了让Transformer能理解元胞自动机，我们必须将二维的网格和规则矩阵"翻译"成它能处理的一维序列。我们首先将每个矩阵展平成一个数字列表，然后用特殊标记拼接成一个长字符串。

例如，对于正向问题，输入格式如下：

[BOS] [R] 1 0 1 ... [BIC] 0 1 1 ... [EIC] [BGS2] ??? [EGS2] [EOS]

其中 [BOS], [EOS], [R], [BIC], [EIC] 等都是我们自定义的特殊 Token，用于告诉模型序列的不同部分代表什么（规则、初始条件、下一个状态等）。模型的任务就是预测 `???` 部分的内容。对于逆问题，我们会提供 IC 和 GS2，让模型预测 RM 部分。

规则矩阵 (RM) 的形式化

我们研究的是二维、二元（细胞状态为0或1）、确定性的元胞自动机，其邻域为摩尔邻域（即周围的8个邻居）。

一个细胞的下一个状态取决于它当前的状态（0或1）以及它8个邻居中状态为1的数量（0到8个，共9种可能）。因此，总共有 $2 \times 9 = 18$ 种不同的局部情况，我们称之为"元状态"（metastate）。

规则矩阵（RM）就是一个 $2 \times 18$ 的二进制矩阵。每一列对应一个元状态，每一行对应细胞的下一个可能状态（0或1）。由于规则是确定性的，每列中只有一个元素为1，表示该元状态唯一确定的下一个状态。

规则矩阵 (2x18) 结构

示例：紫色高亮区域表示，当一个细胞状态为0且有0个邻居为1时，它的下一个状态将是1。

关键性能指标 (公式)

我们在研究中定义了几个关键的数学公式来量化模型的性能。

1. GS2 推断准确率 ($AGS2I$):

用于衡量正向问题的预测准确性。它计算的是模型预测的下一个状态（GS2）中，与真实GS2相比，正确预测的像素（token）所占的比例。

\\[ AGS2I = \frac{\gamma_c}{\gamma_t} \\]

其中，$\gamma_c$ 是正确推断的GS2 token数量，$\gamma_t$ 是GS2的总token数量（对于16x16的网格，为256）。

2. 规则矩阵推断准确率 ($ARMI$):

用于衡量逆问题中规则推断的"字面"准确性。如果推断出的RM能够完美复现GS2，则准确率为1。否则，它就是推断RM中与真实RM相比，正确token的比例。

\\[ ARMI = \begin{cases} 1, & \text{if inferred RM yields perfect GS2} \\ \frac{\rho_c}{\rho_t}, & \text{otherwise} \\ 0, & \text{if inferred RM is illogical} \end{cases} \\]

其中，$\rho_c$ 是正确推断的RM token数量，$\rho_t$ 是RM的总token数量（36）。

3. 推断规则矩阵应用准确率 ($AIRMA$):

用于衡量逆问题中推断规则的"功能"准确性。它不关心推断的RM是否与真实RM一致，只关心用这个推断的RM去演化IC时，能多大程度上复现真实的GS2。

\\[ AIRMA = \frac{\gamma'_c}{\gamma_t} \\]

其中，$\gamma'_c$ 是使用推断出的RM计算GS2时，与真实GS2相比，正确的token数量。