绝热可逆 CMOS (ARC)

实现更高效的数字计算 - 原理与技术路线图

作者: Michael P. Frank and Hugh Potter (Vaire Computing)

在 "攀登 AI 能源墙" 活动上的特邀演讲

滑铁卢大学,安大略省滑铁卢市

2025年10月8日,星期三

高三解读 (第1页):

这一页是演讲的封面,标题点明了核心主题:"绝热可逆 CMOS (ARC)"。

所以,ARC 技术的终极目标是创造一种全新的、超级节能的芯片技术。为什么这很重要呢?因为副标题提到了 "攀登 AI 能源墙" —— 随着人工智能 (AI) 发展得越来越快,训练那些强大的 AI 模型(比如 GPT-4)需要消耗的电力已经多得惊人,就像一堵高墙挡在我们面前。这份演讲就是要提出一个解决方案,尝试"翻过"这堵能源墙。


今日演讲者... Michael Frank 与 Hugh Potter

[演讲者 Michael Frank 的照片] [演讲者 Hugh Potter 的照片]

Michael Frank 是 Vaire 的一名高级科学家,他最早在90年代的麻省理工学院(MIT)开始研究计算物理学和可逆计算,最初是在DNA计算的背景下,后来开发了使用绝热CMOS的概念验证演示芯片。他在佛罗里达大学、佛罗里达州立大学和桑迪亚国家实验室继续他的相关研究。他的研究兴趣还包括人工智能和分布式系统。

高三解读 (Michael Frank):

这位是 Michael Frank 大佬。他的履历非常亮眼:MIT 出身,从上世纪90年代就开始研究"可逆计算"了,是这个领域的"老炮"。值得注意的是,他最早研究的是 "DNA 计算",这是一种利用生物分子(DNA)来进行计算的前沿技术。这说明他的思维从一开始就跳出了传统硅芯片的框框。

他后来转向了"绝热CMOS",并做出了"概念验证芯片"—— 意思是不仅停留在理论上,而是真的动手把这个想法造了出来,证明它是可行的。这非常厉害,相当于你不仅在理论上推导出了一个新的物理定律,还亲手做了一个实验装置来验证它。他现在的研究兴趣还包括 AI,这正好把他早期的节能计算研究和当前最火热的 AI 领域连接了起来。

Hugh Potter 是 Vaire 的一名科学家,他从物理学和计算机科学的学术背景转向可逆计算。在物理学领域,他研究计算核结构;在计算机科学领域,他研究DNA纳米技术。除了可逆硬件,他的研究兴趣还包括编程语言、形式化验证和分子自组装。

高三解读 (Hugh Potter):

这位是 Hugh Potter,同样是一位跨学科的牛人。他的背景是"物理学"(研究原子核结构)和"计算机科学"(研究DNA纳米技术)。

这两位演讲者的背景都极其"硬核",他们都是从最底层的物理学和前沿的计算(如DNA计算)出发,来思考如何突破传统计算的极限。这告诉我们,他们今天要讲的 "ARC" 技术,不是对现有CMOS技术的小修小补,而是一种基于物理学原理的、根本性的创新。

近乎零耗能的计算


一些动机... 为什么我们需要替代的计算范式?

底线:主流行业对底层数字CMOS功率效率的预测已经几乎"躺平"了。

未来12年内仅预测有约2倍的提升!

这意味着:

高三解读 (第3页 - 动机):

这一页解释了他们为什么要做这件事,也就是"动机"。核心观点非常直白:我们熟悉的芯片技术(CMOS)在"节能"这件事上已经快要到头了("几乎躺平了")。

行业预测未来12年,芯片的能效(每瓦电能完成的计算量)只能提高2.1倍。这听起来好像还行,但对比一下AI的发展速度,这点进步根本不够用。这就好比你的学习APP功能越来越花哨,但你的手机电池技术却停滞不前,结果就是你每天得充八次电。

这会带来三个大问题:

  1. 散热和供电:芯片耗电越大,发热就越厉害(想想你玩游戏时发烫的手机)。当几百万个这样的芯片放在一个数据中心里,如何给它们供电、如何把热量散出去,就成了天大的难题。
  2. 环境影响:AI 的"智能"是靠海量的电力"喂"出来的。如果 AI 规模无限扩大,地球的发电量都可能不够用,这对环境(比如碳排放)是个灾难。
  3. 社会阻力:如果大家发现 AI 发展是以牺牲环境和能源为代价的,那么社会、法律甚至政治层面都可能会出来踩刹车。

所以,结论是:我们必须找到一种全新的、更节能的计算方式("替代的计算范式"),否则 AI 的发展很快就会撞上"能源墙"。

MAC 性能与功率密度 (来自 IRDS '23)

值 (相对 2025 年) 年份 100 10 1 2025 2028 2031 2034 2037 TOPS/mm2 (每毫米²的性能) TOPS/W (每瓦的能效) W/mm2 (每毫米²的功耗) 仅 2.1倍!

高三解读 (图表3):

这张图是本页的核心,也是整个演讲的"问题陈述"。它展示了未来芯片发展的趋势预测,Y轴(纵坐标)是"对数尺度"的,这意味着每上一格代表数值乘以10,而不是加10。

结论显而易见:我们正在用"堆性能"和"堆功耗"的笨办法来提升算力(绿线红线一起涨),但我们提升"效率"的"科技树"已经快点满了(蓝线涨不动了)。这就是"能源墙"—— 你可以造出更强的芯片,但你根本"付不起"电费,也"降不住"温度。


CMOS 晶体管开关能耗的极限

...来自热力学!

看看一个最小尺寸器件的栅极和沟道之间存储的 $\frac{1}{2}CV^2$ 静电能量的大小...

高三解读 (第4页 - 物理极限):

上一页说"效率"遇到瓶颈,这一页就从物理学原理上解释"为什么"。答案是:我们已经撞上了物理学的"南墙"—— 热力学极限

你高中物理学过,电容器的储能公式是 $E = \frac{1}{2}CV^2$。芯片里的晶体管(你可以把它想象成一个极小的开关)工作时,也需要存储一点点能量来维持它的"开"或"关"的状态(也就是"1"或"0")。

问题来了:为了省电,我们拼命地想降低这个能量 $E$,主要是通过降低电压 $V$。但是,这个能量 $E$ 不能无限小!

  1. 热噪声 (玻尔兹曼波动):你学过"布朗运动"吗?在室温下(300K),所有粒子都在随机振动,这种振动本身就带有能量,这个能量的度量单位就是 $kT$(k是玻尔兹曼常数,T是温度)。这个 $kT$ 就是"热噪声"的能量水平。如果你把晶体管的能量 $E$ 降得太低,低到接近 $kT$ 的水平(比如只有几百个 $kT$),那么这种随机的热振动就可能"震翻"你的开关,把"1"随机变成了"0",或者"0"变成了"1"。这就是计算出错!
  2. 漏电:为了让开关能可靠地"关断",你需要一个足够的"开关电压"。如果电压太低,那个"关"的状态就关不严实,总会有一些电流"漏"过去(称为"漏电"),这也会白白浪费能量。

所以,传统的CMOS技术被卡住了:能量降得太低,计算就出错;能量降不下去,功耗就爆炸。这是一个死胡同。这再次证明了我们必须另起炉灶,寻找新的计算原理。

沟道开关能耗 vs. 批量生产年份

$\frac{1}{2}CV^2$ 栅极或沟道 $\Delta E$, aJ 10,000 1,000 100 10 1 1995 2000 2005 2010 2015 2020 2025 2030 250 180 130 90 65 45 32/28 22 16/14/10 7 3 2 1.5 1 0.7 0.5 2 1.5 1 0.7 0.5 平面栅极 (Planar gate) FinFET 沟道 IRDS '23 HP 预测 (高性能) IRDS '23 HD 预测 (高密度)

高三解读 (图表4):

这张图更具体地展示了"开关能耗"随时间的变化,Y轴同样是对数尺度。这个能耗 $E = \frac{1}{2}CV^2$ 的单位是"阿焦" (aJ),这是一个极小的能量单位($1 aJ = 10^{-18}$ 焦耳)。

你可以看到一个清晰的趋势:

  1. 棕色线 (平面栅极):这是老一代的芯片技术。从1998年到2010年,能耗从 250 aJ 降到了 10 aJ 左右,下降得非常快。这就是著名的"摩尔定律"的黄金时代。
  2. 蓝色线 (FinFET 沟道):这是目前的主流技术(你手机里的高端芯片就是用这个)。它在2012年接棒,把能耗从 20 aJ 左右降到了 7 aJ,但你看这条线,它在 2014-2018 年间几乎是平的,说明这代技术也开始"挤牙膏"了。
  3. 绿色和红色线 (未来预测):这是对未来的预测。从2022年到2032年,能耗会从 2-3 aJ 进一步下降到 0.5-0.7 aJ。

关键信息:我们已经把能耗从几百降到了个位数。但现在,我们卡在了 1 aJ 附近。为什么降不动了?回到这一页的文字解释:因为 1 aJ 已经只相当于几百个 $kT$(室温下的热噪声能量)了。再降,芯片就没法稳定工作了!这条曲线的"躺平"趋势,从物理上宣判了传统CMOS技术的节能之路即将终结。


可逆计算 vs. 热力学计算

可逆计算可以被认为是热力学计算的早期版本,

Vaire 研究的这种可逆计算与 Extropic 风格的热力学计算非常不同...

Vaire 的适度(但仍极具挑战性!)的目标仅仅是,通过在(大多数)逻辑可逆的架构中进行绝热开关和能量回收,逐步提高确定性数字计算的能源效率...

高三解读 (第5页 - 概念辨析):

这一页非常重要,演讲者在"划清界限"。因为"可逆计算"和"热力学计算"这两个词听起来很像,都是利用物理学原理来搞计算,所以他们必须说清楚"我们是谁,我们不是谁"。

这里提到了两个阵营:

  1. Vaire (演讲者公司) 搞的"可逆计算"
    • 目标:还是做我们熟悉的"数字计算",比如 1+1=2,结果必须是精确的、唯一的。这叫"确定性计算"。
    • 方法:使用"绝热开关"。"绝热"在这里的通俗理解是"极其缓慢而平稳地"进行计算,就像你慢慢地、匀速地提起一个水桶,几乎不浪费能量。与之相对的是传统计算,就像"啪"地一下打开开关,会产生"火花"(能量损耗)。
    • 核心:计算过程是可逆的,能量可以被"回收"再利用,而不是当成热量扔掉。
  2. Extropic (另一家公司) 搞的"热力学计算"
    • 目标:更激进。他们不一定追求 1+1=2,而是可能去解决一些"模糊"的问题,比如"猜一个最可能的结果"。这叫"随机性计算"(Stochastic)。
    • 方法:利用物理系统(比如一堆粒子)在"热平衡"状态下的特性来计算。这更像是"模拟计算",利用大自然的规律"顺便"得出答案。

总结:Vaire 的目标更"务实"一些:他们不想彻底颠覆计算机,而是想通过"可逆"和"绝热"技术,让我们现在的"数字计算机"变得超级超级省电。而 Extropic 则更像是在另起炉灶,搞一种全新的、基于概率的"热力学计算机"。

计算范式对比

确定性
随机性 (概率)
动态 (绝热/弹道)
静态 (热平衡)

Vaire (ARC)

通过绝热开关和能量回收,实现高效、精确的数字计算。

Vaire 的领域

Extropic (热力学计算)

利用系统的静态平衡和热力学特性进行概率计算。

高三解读 (图表5 - 新增):

为了帮你更清楚地理解上一页的"划清界限",我做了这个2x2对比图。我们可以从两个维度来区分这几类计算:

从图中可以看到:Vaire 的 ARC 技术 位于"确定性"和"动态"这个象限。他们的目标是革新我们现有的"确定性"数字计算机,而不是去搞"随机性"的AI专用机。这澄清了他们的技术定位。


Vaire 的第一款测试芯片 - 代号:冰河 (Ice River)

采用 22 纳米平面工艺制造。

"概念验证"芯片,表明我们实际上可以在标准硅 IC 中驱动可逆逻辑流水线并从中回收能量。

该设计还支持能量回收测量。

在实验室测试中展示了约 30% 的能量回收。

高三解读 (第6页 - 动手实践):

这一页展示了他们的"实验报告"——他们不只是停留在理论和PPT上,而是真的动手造出了一块芯片,代号"冰河"(Ice River)。

总结:"冰河"芯片的成功,是他们从"物理理论"迈向"工程现实"的第一大步,证明了 ARC 技术不是空想。


绝热可逆 CMOS (ARC) - 基本原理

无火花! (No Sparks!)

$\Delta V$ + -

无冲击! (No Squelches!)

$I \rightarrow$

LC 谐振腔 (LC Tank)

C L

关键见解:

实现方法:

高三解读 (第7页 - 核心原理):

这一页是整个演讲的"物理课",解释了 ARC 技术的"灵魂"——它凭什么能省电?

关键见解(为什么能):

实现方法(怎么做):

  1. "无火花" (No Sparks!):传统芯片的开关(晶体管)工作方式很"粗暴"。想象一个高水位水库(电压=1)和一个低水位水库(电压=0),传统芯片就是"啪"地一下打开它们之间的闸门。水(电荷)会猛烈地冲过去,撞击闸门(电阻),产生巨大的热量(能量耗散)。ARC 的"绝热开关"则像是在两个水库之间先用一个平稳的管道把水位调成一样高,然后再打开闸门,水缓缓流过,几乎没有能量损失。
  2. "无冲击" (No Squelches!):这是关闸门。传统芯片是在水流(电流)还很猛的时候"啪"地一下关上闸门,水流会猛烈撞击闸门("冲击"),再次产生热量。ARC 是先用管道把水流(电流)平稳地降到0,然后再关闭闸门。
  3. "LC 谐振腔" (LC Tank):怎么实现这种"平稳的"调节呢?答案是电感(L)和电容(C)。在高中物理中,你学过 LC 振荡电路,电能(在电容里)和磁能(在电感里)可以平滑地来回转换,就像一个没有摩擦的秋千。ARC 就用这个"秋千"来产生平滑的电压波(像正弦波,而不是方波),"温柔地"推动电荷去计算,然后再"温柔地"把它们拉回来,实现能量回收。

Vaire 谐振器的高层架构(第一代)

谐振器 (Vaire IP) 架构图

谐振器 (Vaire IP) 输入 LC 谐振腔 (包含逻辑电路的电容) 相位发生器 脉冲整形器 控制发生器/驱动器 $4\phi$ (4相控制) $f_{out} = f/N$ 至 RC 逻辑 $\phi_0$ $\phi_1$ $\phi_2$ $\phi_3$

设计组件包括:

高三解读 (第8页 - 架构图):

这张图展示了实现"绝热计算"的"发动机"—— 谐振器 —— 是如何工作的。这是他们的核心知识产权(IP)。

  1. 输入:一个标准的、高能耗的"方波"时钟信号(就像你电脑CPU里的时钟信号)进入谐振器。
  2. LC 谐振腔:这是"发动机"的心脏。就像上一页说的,它是一个 LC 振荡电路("秋千")。它把输入的"方波"信号(粗暴的推力)转换成平滑的"正弦波"信号(温柔的推力)。
  3. 【最关键的注释】:"逻辑电路本身的电容构成了槽路的关键部分!" 这句话非常非常重要!这意味着"发动机"和"车轮"(逻辑电路)是集成在一起的。"车轮"转动(计算)时的阻力(电容)本身就是"发动机"(LC谐振腔)的一部分。这使得能量回收的效率达到了极致。
  4. 相位发生器:这是"变速箱"和"动力分配系统"。绝热可逆逻辑(RC Logic)不能只靠一个时钟信号,它需要一套"组合拳"才能按部就班地工作。这个模块就把那个平滑的正弦波,"切"成4个不同时间点($\phi_0, \phi_1, \phi_2, \phi_3$)的"动力脉冲",按顺序一个一个地发给逻辑电路。
  5. 控制发生器:这是"行车电脑"(ECU)。它精确地控制"变速箱"何时换挡,何时发力,确保整个系统的稳定。
  6. 输出:这4路"温柔的"动力($\phi_0$ - $\phi_3$)被送去驱动真正的"可逆计算逻辑"(RC Logic)。

总结:这个谐振器是一个"电源转换和管理系统"。它把传统芯片"粗暴的"方波电源,转换成 ARC 逻辑所需要的、多相位的、"温柔的"正弦波电源,从而实现能量的回收和复用。


绝热 vs. 传统性能 vs. 功率密度

与 Alex Edwards(来自 UT Dallas 的 DOE SCGSR 实习生)于 22 年夏天完成的工作

绝热与传统 CMOS 的原始开关吞吐量密度相比如何?

该研究使用粗略的器件模型,比较了 IRDS 路线图节点上几种设计场景,作为每芯片功率密度的函数。

主要结果:

注意:这些结果尚未考虑可逆计算的复杂性开销...

但是,它们表明我们可能有相当大的余地来应对!

吞吐量密度 vs. 功率密度 (标准电压对比)

功率密度约束, $Watts/cm^2$ 吞吐量, $Pops/cm^2$ $10^{-2}$ $10^{-1}$ $10^{0}$ $10^{1}$ $10^{-1}$ $10^{0}$ $10^{1}$ $10^{2}$ $10^{3}$ $10^{4}$ 标准电压绝热 电压优化传统 标准电压传统 21x

吞吐量密度 vs. 功率密度 (优化电压对比)

功率密度约束, $Watts/cm^2$ 吞吐量, $Pops/cm^2$ $10^{-2}$ $10^{-1}$ $10^{0}$ $10^{1}$ $10^{-1}$ $10^{0}$ $10^{1}$ $10^{2}$ $10^{3}$ $10^{4}$ 电压优化绝热 电压优化传统 标准电压传统 104x

(图中的彩色小点代表2022-2037年的不同技术节点)

高三解读 (第9页 - 性能碾压):

这是整个演讲的"王炸"图表,直接对比了 ARC 和传统技术的性能。两张图的坐标轴都是"对数尺度",所以一条直线代表的是指数关系。

坐标轴解读:

图表解读:

左图:对比"标准电压"的 ARC 和传统技术。

右图:对比"优化电压"的 ARC 和传统技术。

"免责声明":演讲者很诚实地承认,这个 104 倍是"原始开关"的对比,没算上"可逆计算"本身带来的额外"复杂性"(比如一个可逆加法器可能比普通加法器更大)。

结论:就算这个"复杂性"开销吃掉了90%的优势,104x $\rightarrow$ 10.4x,他们还是赢麻了。这个"余地"(headroom) 实在是太大了。


一个更具体的近期案例研究...

...来自一个简单的分析

精心设计的高品质谐振器即使在成熟的技术中也能实现约 10 倍的性能提升...

ARC 的性能优势在后续节点中会增加...

特定设计场景下的总性能 vs. 频率

逻辑时钟频率 总性能 最大传统吞吐量 (受功率预算限制) 峰值绝热吞吐量 受可用面积限制 受功率预算限制

高三解读 (第10页 - 性能拐点):

这张图把第9页的理论(104倍)落实到了一个具体的产品案例上,告诉你这在商业上意味着什么。

场景:一块 50W 功率预算的 7nm 芯片(这就像一块高端笔记本电脑的 CPU)。

结论:这座"蓝山"的"峰顶",比"红线"的"平顶山"高出了 9.4 倍!这意味着:在完全相同的 50W 功耗下,使用相同的 7nm 技术,ARC 芯片可以提供近 10 倍于传统芯片的性能。

最后,他们提到,要实现 100-1000 倍的提升,就需要"高 Q 值"谐振器(更高效的"秋千"),甚至可能需要动用"超导"这种黑科技了。


展望未来...

...Vaire 的下一代技术(开发中)

一些关键的工程创新,正在进行中...

高三解读 (第11页 - 未来展望):

这一页是"画饼"环节,告诉大家他们接下来要攻克的难关,以及他们实现"100倍"提升的底气在哪里。这主要分三个方面:

  1. 升级"发动机"(谐振器)
    • "增强的 Q 值":"Q值"在物理上是"品质因数",你可以把它理解为"秋千"的"续航能力"。Q 值越高,秋千(LC 谐振腔)摆动一次的能量损失就越小,能量回收的效率就越高。他们之前实现了30%的回收率,要做到90%甚至99%,就必须提高 Q 值。
    • "自调谐能力":这是一个"智能化"升级。芯片在工作时,温度、负载都在变化,这会导致"秋千"的摆动频率(谐振频率)发生变化。如果"推力"的频率和"秋千"的频率对不上,效率就会暴跌。"自调谐"就是让"发动机"能自动感知"秋千"的状态,始终保持在最高效的"共振"状态下工作。
  2. 升级"车身"(逻辑电路)
    • "降低复杂性开销":这是目前最大的痛点。在第9页提到,可逆计算有"复杂性开销"。比如,一个传统加法器可能用100个晶体管,一个"可逆"加法器为了实现"可逆",可能需要300个。这就导致芯片面积变大、成本变高。他们未来的工作重点就是发明新的电路结构("拓扑"),让这个开销从 300% 降到 50% 甚至更低。
  3. 升级"设计工具"(EDA)
    • "EDA" (Electronic Design Automation):电子设计自动化。这是用来"画"芯片设计图的专用软件。因为 ARC 是一种全新的电路原理,你不能再用传统软件来设计它了。这就好比你发明了"榫卯结构",但你不能再用画"螺丝钉"的 CAD 软件,你必须开发一套全新的、懂"榫卯"的设计软件。
    • "AI 增强的工具":他们更进一步,要在这套新软件里加入 AI。让 AI 帮助工程师自动去寻找最优的电路布局,这在芯片设计领域是绝对的前沿。

总结:他们接下来的蓝图是:造一个更高效、更智能的"发动机"(谐振器),一个更轻、更划算的"车身"(逻辑电路),以及一套 AI 辅助的、全新的"制造图纸"(EDA)。

下一代技术创新焦点

下一代 ARC 技术 1. 谐振器升级 更高 Q 值 (效率+) 自调谐 (智能化+) 2. 逻辑电路升级 降低开销 (成本-) AI 辅助 EDA (设计+)

高三解读 (图表11 - 新增):

这张图帮你总结了上一页的"展望"。Vaire 公司的下一代技术主要兵分两路:

  1. 第1路:升级"发动机"(谐振器)。目标是"提高 Q 值"来提升能量回收效率(效率+),以及实现"自调谐"来提高智能化和稳定性(智能化+)。
  2. 第2路:升级"车身"(逻辑电路)。目标是"降低复杂性开销"来降低芯片面积和成本(成本-),以及开发"AI 辅助的 EDA 工具"来加快设计速度(设计+)。

这两路创新合在一起,构成了他们实现"100倍"性能提升的工程基础。


一个粗略的、雄心勃勃的(但可行的)路线图...

...Vaire 的技术和业务发展

注意:很明显,这取决于许多事情(充足的资金、客户/合作伙伴的发展等)...

高三解读 (第12页 - 路线图):

这是演讲的最后一页,给出了他们的"商业计划书"。他们非常坦诚地承认这个计划是"雄心勃勃的",并且需要"钱"和"合作伙伴"的支持。

总结:这是一个典型的"三步走"战略:先搞定技术、再建立生态、最后实现商业化。从一个物理学原理,到实验室芯片,再到 104 倍的理论性能,最后到一份清晰的商业路线图,这份演讲完整地展示了 ARC 技术从"0到1"并试图走向"1到100"的全过程。

Vaire 技术与商业路线图

2026 年中 技术平台 充分验证 2027 年中 "开发套件" 分发给合作伙伴 2028 年中 首款商业产品 正式问世