交大新论文ASI-ARCH：模型架构发现的AlphaGo时刻

引言：当AI学会自我进化

大家好，我是刘一秀。今天，我想和大家聊聊一个让我和我的团队都无比兴奋的话题：我们是否能创造出一个可以自己进行AI研究的AI？

在过去的几年里，我们见证了AI能力的爆炸式增长。从写诗、绘画到编程，AI似乎无所不能。然而，一个根本性的悖论也随之浮现：尽管AI系统本身在以指数级速度变强，但驱动这一切的AI研究，其速度却依然受限于我们人类研究员的认知带宽。我们熬夜、开会、做实验，但我们的创新速度终究是线性的。

这就像我们造出了一辆越来越快的跑车，但设计新跑车的工程师们却只能骑自行车。这个瓶颈越来越严重，限制了AI发展的终极潜力。于是，一个大胆的想法在我脑海中萌生：我们能否打破这个“人类环路”，让AI自己拿起“设计图纸”，去创造下一代的、更强大的AI？

这就是我们提出 ASI-ARCH 的初衷。它代表着一种范式转移，从传统的“神经架构搜索”（NAS）——本质上是在人类预设的盒子里寻找最优解——跃迁到“自动化创新”。我们希望构建一个完全自主的系统，它能像一个真正的科学家一样，独立完成从提出假说、编写代码、进行实验到验证性能的全过程。

想象一下，如果AlphaGo不仅能下棋，还能自己发明一种全新的、超越围棋的棋类游戏，并成为其中的顶尖高手。ASI-ARCH做的，就是类似的事情，不过它的领域是AI模型架构的设计。

在这趟探索之旅中，ASI-ARCH自主进行了超过1700次实验，累计消耗了20000个GPU小时。最终，它发现了106种全新的、达到业界顶尖水平（SOTA）的线性注意力架构。这些由AI创造的架构，其设计原则常常出人意料，甚至颠覆了我们人类专家的直觉，就像AlphaGo那著名的“第37手”，为我们揭示了架构设计中前所未知的新大陆。

更重要的是，我们首次通过经验性数据，揭示了一条关于“科学发现”本身的缩放定律（Scaling Law）。这意味着，科学突破的速度，或许真的可以从依赖人类灵感，转变为一个可以通过计算资源来扩展的过程。这为实现真正能够自我加速的ASI（人工超级智能）提供了一条清晰的路径。

核心方法：构建一个AI科学家团队

要让AI自主进行科研，光有一个强大的大脑还不够，我们需要一个高效的组织架构。ASI-ARCH的核心是一个由三个AI智能体组成的“科研团队”，它们各司其职，形成一个闭环的进化系统。

动画一：ASI-ARCH的科研闭环

生活化类比：这就像一个创业团队。研究员是那个充满奇思妙想的CEO，负责提出新产品的点子。工程师是CTO，负责把点子做成实际产品并测试。分析师则是CMO，负责分析市场反馈，总结经验教训，为CEO的下一个决策提供数据支持。

当前阶段: 待开始

这个团队的工作流程如下：

研究员 (Researcher)：团队的“创意大脑”。它负责提出新的模型架构。它的灵感来源有两个：一是“认知库”（Cognition Base），里面存储了近百篇人类顶尖专家的经典论文精华；二是从过往所有实验中总结出的“经验”（History Experience）。它会基于这些知识，提出一个富有创意的改进动机。
工程师 (Engineer)：团队的“实干家”。它接收研究员的设计理念，将其转化为可执行的PyTorch代码，并在真实的计算环境中进行训练和评估。如果代码出错，它会像人类程序员一样，根据报错信息进行调试（Debug），直到成功运行。这个过程非常关键，确保了好的想法不会因为小小的编程错误而被扼杀。
分析师 (Analyst)：团队的“复盘大师”。实验结束后，它会全面分析性能数据、训练日志等，并与父代、兄弟代架构进行对比（类似生物学的“亲缘分析”），提炼出深刻的洞见。例如，“这次加入的‘卷积旁路’似乎显著提升了模型的短期记忆能力”。这些洞见会存入数据库，成为研究员下一轮创新的养料。

这个闭环不断循环，每一次循环，系统都会变得更“聪明”，提出的架构也越来越优秀。

关键创新一：超越分数的“品味”——适应度函数

在进化论中，“适应度”决定了哪个物种能生存繁衍。在ASI-ARCH中，我们也需要一个标准来衡量一个新架构是“好”还是“坏”。过去很多研究只看重性能分数，比如准确率。但这会导致一个严重问题——“奖励黑客”（Reward Hacking）。

这就像考试只考选择题，学生可能会专精于蒙题技巧，而不是真正掌握知识。同样，AI也可能学会“刷分”，创造出一些分数很高但实际上设计臃肿、毫无新意的“怪胎”架构。

为了避免这种情况，我们设计了一个更全面的适应度函数，它不仅看重“能力”，更看重“品味”。

$$ \text{Fitness} = \frac{1}{3}[\sigma(\Delta_{\text{loss}}) + \sigma(\Delta_{\text{benchmark}}) + \text{LLM}_{\text{judge}}] $$

解释：这个公式由三部分组成。前两部分 $\sigma(\Delta_{\text{loss}})$ 和 $\sigma(\Delta_{\text{benchmark}})$ 分别代表模型在新任务上的损失和基准测试得分相对于基线模型的提升，并通过一个Sigmoid函数 $\sigma$ 进行平滑处理。这能放大微小的进步，同时防止极端分数主导结果。最关键的是第三部分 $\text{LLM}_{\text{judge}}$，这是一个由大语言模型扮演的“架构品味评审员”。

这个“评审员”会从四个维度对架构进行“质性评估”：

创新性：这个设计是否提出了新的想法？
复杂度：架构是否简洁优雅，还是臃肿不堪？
实现正确性：代码实现是否高效、合理？
收敛特性：训练过程是否稳定？

动画二：适应度函数模拟器

体验一下我们的“品味”标准！拖动下面的滑块，模拟一个新架构在性能和设计质量上的表现，看看它的最终适应度如何。你会发现，即使性能超群，如果设计得一塌糊涂（LLM Judge评分低），它也无法获得高分。

损失提升: 基准提升: LLM评审分:

最终适应度: 0.00

关键创新二：AI的“第37手”——涌现出的设计智能

经过数千次自主实验，ASI-ARCH发现的106个SOTA架构，展现出了一些超越人类常规设计范式的新颖模式。这就像AlphaGo的“第37手”，初看匪夷所思，细品则妙不可言。这些“AI原创”的设计，为我们打开了新世界的大门。

我们挑选了其中几个最具代表性的设计进行分析，它们分别代表了AI解决问题的不同“思路”：

静态图一：五种AI原创架构概览

这里简要展示了五种顶尖AI原创架构的核心思想，它们分别从门控、融合、层级化等不同角度对基线模型进行了创新。

PathGateFusionNet (分层路径感知门控网络): 传统模型在处理信息时，往往要在“看近处”和“看远处”之间做取舍。这个架构设计了一个巧妙的“两阶段路由器”，第一阶段决定是直接“复制粘贴”局部信息，还是深入“思考”全局信息；第二阶段再精细地把思考资源分配给短距离、长距离等不同路径。
ContentSharpRouter (内容感知锐化门控): 门控机制常常面临两难：要么对内容足够敏感但决策“拖泥带水”，要么决策果断但对内容“视而不见”。这个模型融合了两种思路，既用内容信息来指导决策，又引入了一个可学习的“温度”参数，让模型自己决定决策的“锐利”程度。
FusionGatedFIRNet (并行融合与保留网络): 传统的Softmax门控是“零和游戏”，给一个路径更多资源，就必须减少另一个的。此架构打破了这一限制，为每个路径设置独立的Sigmoid开关，允许模型同时激活局部和全局路径，实现“鱼与熊掌兼得”。
HierGateNet (带动态下限的分层门控): 这个模型也用了分层门控，但其点睛之笔在于为每个路径设置了一个可学习的“动态地板”（Dynamic Floor）。这保证了任何关键路径（尤其是负责长距离推理的）永远不会被完全关闭，确保了信息流的稳定性。
AdaMultiPathGateNet (自适应多路径门控): 这个设计追求极致的控制力，它允许模型在“每个词元”的级别上，独立控制信息流向各个路径。为了防止系统“选择困难”，它加入了一个“熵惩罚”机制，鼓励路径多样性。

动画三：门控机制的革命

传统的Softmax门控（左侧）就像一个资源分配器，总和为100%。AI发现的并行Sigmoid门控（右侧）则像多个独立的开关，可以同时开启。点击“开始”，观察信息流（小球）如何通过这两种不同的门控。

Softmax路径A流量: 0 | Softmax路径B流量: 0

Sigmoid路径A流量: 0 | Sigmoid路径B流量: 0

关键创新三：科学发现的“摩尔定律”——计算可扩展的突破

我们这项研究最令人振奋的发现，可能不是某一个具体的架构，而是揭示了一条普适的规律：科学发现本身，是可以通过计算来扩展的。

我们将ASI-ARCH发现SOTA架构的数量与消耗的GPU小时数绘制成图，得到了一条近乎完美的线性关系。这意味着，只要我们投入更多的计算资源，就能稳定地获得更多的创新成果。这与人类研究形成了鲜明对比——我们不可能通过简单地增加研究员数量或工作时长，就保证能线性地产生科学突破。

静态图二：科学发现的缩放定律

这张图是本研究的核心成果之一。它清晰地表明，投入的计算资源与产出的科学发现（新的SOTA架构）之间存在着强大的正相关关系。蓝色的区域代表了传统人类研究的模式，其产出本质上是不可扩展的。

这个“科学发现缩放定律”的意义是深远的。它暗示着，未来AI研究的瓶颈将不再是人类的智慧，而是我们能调动的计算能力。这为实现一个能够“自我造血”、不断加速进化的ASI系统，铺平了道路。

动画四：模拟科学发现的扩展

在这个模拟中，每个闪烁的星星代表一个“科学发现”。左边是“人类研究模式”，发现速率是固定的。右边是“ASI-ARCH模式”，你可以通过滑块增加“计算资源”，观察发现速率的变化。体验一下计算如何加速创新！

计算资源:

人类模式发现数: 0 | ASI-ARCH模式发现数: 0

深入分析：AI是如何“思考”的？

为了探究ASI-ARCH的“内心世界”，我们对它的1773次实验过程进行了深入的“心理学分析”。我们想知道，它是如何做出决策的？它偏爱哪些技术？以及，那些顶尖的“好点子”究竟从何而来？

AI的“技术偏好”

我们统计了所有实验中被修改的架构组件，发现ASI-ARCH像一个经验丰富的工程师，它明显偏爱那些经过验证的、强大的技术，如门控机制（Gating System）和卷积架构（Convolutional Architecture）。而对于一些冷门、小众的技术（如物理启发的机制），它则很少涉足。这说明它的学习是基于现有知识的，反映了当前研究文献中的主流趋势。

更有趣的是，顶尖的“模型画廊”（Model Gallery，即106个SOTA架构）与其余模型在组件使用上有一个显著区别：它们的组件分布更加集中，长尾效应不那么明显。这说明，虽然系统会进行广泛的探索，但最终的成功者，往往是那些将核心、有效的技术进行精妙组合与创新的架构，而不是单纯追求新奇。

静态图三：架构组件使用频率

该图展示了AI在设计架构时对不同技术组件的偏好。红色条代表SOTA模型，蓝色条代表其他模型。可以看出，SOTA模型更聚焦于少数核心组件的创新。

“好点子”的来源：经验还是灵感？

一个核心问题是：AI的创新是源于对现有知识的模仿（我们称之为“认知”），还是源于对自身实验的总结与提炼（我们称之为“分析”），亦或是凭空产生的“原创”？

我们设计了一个溯源实验，让另一个LLM来判断每个设计思想的来源。结果令人深思：

对于所有模型来说，大部分（约51.7%）的设计思想来源于对人类论文的直接学习（认知）。
但对于顶尖的SOTA模型，来源于对自身实验总结（分析）的比例显著提升，达到了44.8%，几乎与“认知”持平。

这个发现与人类的科研过程惊人地相似：打好基础需要广泛学习前人经验，但要做出真正的卓越成就，则必须依赖于深入的自我探索、总结和发现。一个只会“复用”过往成功的AI无法实现突破，它必须学会从自己的探索中“悟道”。

动画五：灵感的源泉

这个动画展示了设计思想的三个来源：认知（来自人类知识）、分析（来自AI自身实验）和原创。点击按钮，可以分别查看所有模型和顶尖SOTA模型的灵感来源构成。观察一下，从“普通”到“卓越”，AI的“思考模式”发生了怎样的转变。

当前显示: 所有模型

认知: 51.7% | 分析: 38.2% | 原创: 10.1%