光学生成模型:用光速“创造”前所未见的图像

作者: Shiqi Chen, Yuhang Li, Yuntian Wang, Hanlong Chen & Aydogan Ozcan

机构: University of California, Los Angeles (UCLA)

摘要

生成模型已在图像合成、自然语言处理乃至分子设计等领域展现出变革性的力量。然而,随着这些数字模型规模的急剧膨胀,以快速、节能的方式进行规模化推理成为一项严峻挑战。在此,我们——来自加州大学洛杉矶分校(UCLA)的团队——提出了一种受扩散模型启发的全新范式:光学生成模型。该模型的核心在于一个创新的混合架构:一个轻量、高速的数字编码器首先将随机噪声映射为独特的相位图案,这些图案如同“光学的种子”,为生成目标数据分布提供了起点。随后,一个经过联合训练的、基于自由空间光学的可重构衍射解码器,以纯光学的方式处理这些种子,从而创造出遵循目标数据分布的、前所未见的全新图像。

这一过程的革命性在于,除了初始照明功率和通过浅层编码器生成随机种子外,图像的合成过程本身几乎不消耗任何计算能源。光在自由空间中的传播,本质上就是一次大规模的并行计算,而这一切都在亚纳秒级别的时间内完成。我们通过实验成功验证了这一概念,光学地生成了手写数字(MNIST)、时尚商品(Fashion-MNIST)、蝴蝶、人脸(CelebA)乃至梵高风格艺术画作的单色与多色图像,其整体性能可与完全基于数字神经网络的生成模型相媲美。

我们搭建了可见光波段的实验平台,成功演示了手写数字、时尚产品以及梵高风格艺术品的生成,包括单色和多波长照明下的彩色图像。我们相信,这种光学生成模型为实现高能效、可扩展的AI推理任务开辟了一条全新的道路。它不仅解决了当前大模型面临的能耗与延迟瓶颈,更进一步挖掘了光学与光子学在人工智能生成内容(AIGC)领域的巨大潜力,预示着一个由光来“绘制”未来的新时代的到来。这不仅仅是对现有技术的优化,更可能是一种范式的转变,将AI的创造力从硅基芯片的束缚中部分解放出来,赋予其光的速度与效率。

引言:当AI的“画笔”遇上光的“速度”

大家好,我是Aydogan Ozcan。在UCLA的实验室里,我的团队和我一直着迷于一个问题:我们能否让计算摆脱传统电子芯片的束缚,回归到更本源的物理现象中去?近年来,生成式AI的浪潮席卷全球,从栩栩如生的图像到对答如流的语言模型,其强大的“创造力”令人惊叹。但在这背后,是日益庞大的模型、惊人的能耗和巨大的碳足迹。我们不禁思考:每一次AI的“灵光一闪”,真的需要点亮成千上万个数据中心的服务器吗?

我们把目光投向了宇宙中最古老、最快的信息载体——光。如果说电子在导线中的奔跑是现代计算的基础,那么光在空间中的传播则是一场无需能源消耗的、瞬时发生的、超大规模的并行计算。我们能否教会光如何“思考”,甚至如何“创造”?这便是我们工作的起点——“光学生成模型”(Optical Generative Models)。我们的目标并非简单地用光学元件替代晶体管,而是要构建一个全新的体系,让光的物理传播过程本身,成为生成图像的核心引擎。这就像是给了AI一支以光速挥洒的画笔,让创造的过程变得既高效又节能。

核心解读:揭开光学创造的神秘面纱

1. 快照生成:一台能“照”出新事物的魔法相机

我们提出的第一个模型叫做“快照生成模型”(Snapshot Generative Model)。想象一下,你有一台非常特别的相机。普通的相机是记录已有的画面,而我们的这台“魔法相机”,却能“照”出世界上本不存在、但又合情合理的新图像。

这个过程是如何运作的呢?让我们用一个生活化的类比来解释。

生活化类比:定制万花筒
想象一个精巧的万花筒。你从一端看到的图案,取决于另一端装了哪些彩色的小碎片。现在,我们把这个过程升级:
  • 随机种子 (Random Seeds): 我们不放固定的碎片,而是每次都随机撒上一把“数字尘埃”(高斯噪声)。这就像是创造的起点,充满了无限的可能性。
  • 数字编码器 (Digital Encoder): 这是一台“尘埃整理机”。它非常轻量和快速,能根据一个简单的指令(比如“我想要一个数字‘8’的图案”),把随机的尘埃迅速排列成一种特定的、有规律但肉眼看不懂的“密码图案”。这个密码图案,我们称之为“光学种子”。
  • 衍射解码器 (Diffractive Decoder): 这就是万花筒里最关键的部分——一组精心设计和固定的镜片。它不是普通的镜片,而是一块经过我们成千上万次计算和优化的“魔法玻璃”。
  • 生成图像 (Generated Image): 当一束光穿过我们用“数字尘埃”画好的密码图案,再经过这块“魔法玻璃”时,奇迹发生了。光线在传播过程中发生衍射和干涉,经过复杂的相互作用后,最终在另一端形成了一个清晰、全新的图像——比如一个从未有人写过的、但又明确无误是一个“8”的手写数字。
整个“生成”过程,就是光从密码图案传播到成像平面的过程,这几乎是在瞬间完成的,因为它就是光速!

动画1:快照生成——光的魔法“变形记”

这个动画演示了快照生成的核心思想。左侧是随机生成的“光学种子”(相位图案),当“光”穿过中间固定的“衍射解码器”(一个虚拟的相位调制层)后,在右侧的“传感器”上形成了可识别的图像。点击“生成新种子”来观察不同的随机输入如何创造出不同的输出。

状态: 待开始

图示1:快照生成模型架构

这个流程图清晰地展示了从随机噪声到最终图像的完整路径,突出了数字编码器和光学解码器的核心作用。

随机噪声 数字编码器 (生成光学种子) 衍射解码器 生成图像 光传播

2. 模型训练:向“数字大师”学习创作的艺术

那块神奇的“魔法玻璃”——衍射解码器,是如何被制造出来的呢?它并非凭空而来,而是通过一个精密的学习过程被“雕刻”出来的。在这个过程中,我们引入了一位“数字大师”——一个已经训练好的、强大的数字生成模型,比如DDPM(去噪扩散概率模型)。

生活化类比:AI学徒拜师
想象我们的光学模型是一个充满潜力的AI学徒,而DDPM是一位绘画大师。
  • 大师的教学: 大师不会直接告诉学徒怎么画,而是向他展示成千上万张画作从“混沌”到“杰作”的演变过程。他会拿一张完美的画,不断地往上加噪点,直到它变成一片雪花;然后再反过来,从雪花开始,一步步地去掉噪点,让画作重现。
  • 学徒的领悟: 我们的光学模型(包括它的数字编码器和衍射解码器)就在一旁观察这个过程。它不需要理解每一笔的细节,但它需要领悟从“噪声”到“图像”的映射关系。它不断调整自己的“尘埃整理”策略(数字编码器)和“魔法镜片”的曲率(衍射解码器),目标只有一个:对于大师给出的任何一个噪声模式,它通过光学方法生成的图像,要和大师最终去噪得到的图像尽可能地相似。
  • 出师: 经过海量的“观察”和“模仿”,我们的光学模型最终“悟道”了。它的内部参数被固定下来,形成了一套独特的、高效的从噪声到图像的转换机制。从此,它不再需要大师的指导,可以独立地、用光学的方式进行创作了。

这个过程在技术上被称为“知识蒸馏”,我们把一个庞大、耗能的数字模型所掌握的关于数据分布的“知识”,巧妙地“蒸馏”并固化到了我们这个轻量、节能的光学模型中。

动画2:扩散模型——从混沌中浮现秩序

此动画概念性地展示了我们“数字大师”(DDPM)的工作原理。一个清晰的图像被逐步加入噪声,直到完全无法辨认(前向过程)。然后,模型学习如何逆转这个过程,从纯噪声中逐步“去噪”,最终恢复出原始图像(反向过程)。我们的光学模型学习的就是这个强大的“无中生有”的映射能力。

去噪步骤: 0 / 100

3. 迭代生成:当一次“快照”不足以描绘复杂世界

快照模型非常适合生成像手写数字这样结构相对简单的图像。但面对更复杂的目标,比如细节丰富的蝴蝶或者微妙的人脸表情,一次光的传播可能不足以捕捉其全貌。为此,我们设计了“迭代光学生成模型”(Iterative Optical Generative Model)。

生活化类比:画家的反复推敲
想象一位画家画一幅复杂的肖像画。他不会一蹴而就。
  1. 第一笔(t=T): 他从一片纯粹的噪声(画布上的随机涂抹)开始。通过光学模型进行第一次“处理”,得到一个极其模糊、几乎看不出轮廓的草图。
  2. 修正与再创作(t=T-1, T-2, ...): 画家看着这张模糊的草图,然后故意在上面再撒上一点点新的随机“颜料”(受控的噪声扰动)。这个看似奇怪的举动,实际上是为了打破当前的僵局,激发新的可能性。然后,他将这张“被轻微弄脏”的草图再次输入光学模型。
  3. 渐入佳境: 神奇的是,经过下一次光学处理后,图像非但没有变得更糟,反而变得更清晰了一点。这个“观察-轻微扰动-再创作”的过程被反复执行(比如1000次)。每一次迭代,图像的细节都更加丰富,结构也更加合理。
  4. 最终成品(t=0): 最终,一幅清晰、生动的图像从最初的混沌中浮现出来。

这种迭代的方式,将一个艰巨的生成任务分解成了许多个小的、更容易处理的“去噪”步骤。它避免了模型陷入“思维定式”(即模式坍塌),能够生成比原始数据集更多样化、更富创造力的结果。更令人兴奋的是,在某些情况下,这种迭代模型甚至可以强大到不再需要数字编码器,实现纯粹的光学递归生成。

动画3:迭代生成——层层递进的创造

这个动画模拟了迭代生成的过程。从一片随机噪声开始,每次点击“迭代一步”,图像就会经过一次光学处理并加入微小扰动,然后作为下一次的输入。观察图像是如何从完全随机的状态,一步步地变得有序和清晰的。

迭代次数: 0

4. 探索“之间”的奥秘:连续的潜在空间

一个好的生成模型,不仅仅是能生成看起来真实的图片,更重要的是它要理解事物之间的“关系”。为了验证我们的模型是否做到了这一点,我们进行了一项名为“潜在空间插值”的实验。

生活化类比:人脸的平滑“变形”
想象你有两张照片,一张是数字“1”,一张是数字“7”。在计算机中,它们的“光学种子”(初始的密码图案)是两组不同的数据。现在,我们不在这两点之间跳跃,而是在它们之间画一条直线,并在这条直线上平滑地移动。

当我们从“1”的种子数据,慢慢地、线性地变成“7”的种子数据时,我们观察光学模型生成的图像。我们看到的不是一堆混乱的、无法识别的中间产物,而是一个数字“1”平滑、自然地变形,逐渐收起“小尾巴”,顶部变长,最终演变成一个完美的“7”的全过程。

这个实验有力地证明了,我们的模型学到的不是一堆孤立的“样本点”,而是一个连续、有意义的“概念空间”。它理解了数字的内在结构,因此可以在这个空间里自由地“漫步”和“创造”。

动画4:潜在空间漫步——从“1”到“7”的平滑演变

拖动下方的滑块,你将控制两个不同随机种子之间的线性插值。观察屏幕上由光学模型实时生成的图像,是如何从一个数字平滑地过渡到另一个数字的,这展示了模型学习到的连续而有意义的特征空间。

插值系数 γ: 0.00

5. 超越黑白:光的色彩魔法与信息安全

我们的模型当然不局限于黑白世界。通过使用红(R)、绿(G)、蓝(B)三种不同波长的光,并为每种颜色通道生成一个对应的光学种子,我们可以创造出绚丽的彩色图像。有趣的是,我们可以让这三种颜色的光通过同一个衍射解码器,这大大简化了系统。通过顺序点亮不同颜色的光源并将结果在传感器上叠加,一幅幅梵高风格的彩色画作便跃然“光”上。

图示2:多波长彩色生成

此图展示了生成彩色图像的原理。单个随机输入被编码成三个独立的、对应于R, G, B波长的光学种子。它们依次通过同一个解码器,最终合成一幅彩色图像。

随机噪声 RGB编码器 (生成3个种子) 衍射解码器 彩色图像 R + G + B → 合成

更有趣的是,这种物理层面的解码过程天然地提供了一种信息安全机制。想象一下,衍射解码器就是一把“物理密钥”。如果没有这把精确匹配的“钥匙”,即使你截获了“光学种子”,也无法正确地“解密”出原始图像。我们甚至可以设计一个系统,用同一个光学种子,在不同波长的光下,通过不同的“密钥”(解码器),生成完全不同的图像,实现信息的并行、私密分发。

视觉盛宴:光的粒子流场

为了更直观地感受光在衍射解码器中传播时那种复杂而有序的动态之美,我们创建了下面这个高级动画。它并非直接模拟论文中的物理过程,而是通过算法艺术,来表现光子在复杂相位场中穿梭、干涉、形成美丽流线的意象。这就像是窥探我们光学模型“思考”时,其内部涌动的、由光构成的“意识流”。

动画5:粒子流场——光的意识流

生活化类比:想象无数微小的尘埃,在空中随一阵看不见却又和谐有序的风飘动,形成了优雅的涡流和线条。这个动画使用柏林噪声算法来模拟一个平滑变化的矢量场,引导成百上千的粒子进行优雅而复杂的运动。我们使用了HSB色彩模式和半透明背景,以创造出绚丽的色彩渐变和自然的运动拖尾效果。

💡 性能提示:如果动画卡顿,可以点击"暂停动画"按钮暂停粒子动画以提高页面响应速度

附录:技术细节深潜

数字编码器与衍射解码器

我们的混合模型由两部分协同工作。数字编码器是一个相对浅层的神经网络。对于MNIST和Fashion-MNIST等数据集,我们采用了一个包含3个全连接层的多层感知机(MLP)。它的任务是将一个高维的随机高斯噪声向量 \(\mathcal{I}(x,y) \sim \mathcal{N}(0, I)\) 快速地映射到一个低维但信息量密集的中间表示 \(\mathcal{H}\),并最终转换成一个二维的相位图案(光学种子) \(\phi(x,y)\)。

这个相位图案被加载到空间光调制器(SLM)上,形成入射光场。其复振幅可以表示为 \(U^{(0)}(x,y) = \exp(j\phi(x,y))\),这里我们只调制相位,振幅为常数。

衍射解码器是我们系统的核心。在物理上,它由一个或多个衍射光学元件(DOE)组成。在我们的模型中,我们将其数学地表示为一个纯相位函数 \(\phi^{(l_o)}(x,y)\),其中 \(l_o\) 是层数。光通过自由空间的传播过程,我们使用角谱法进行精确模拟。从一层到下一层的传播可以表示为一个算子 \(\mathcal{P}_f^d\)。

\[ U(x,y) = \mathcal{P}_f^d(U_{in}(x,y)) = \mathcal{F}^{-1}\{\mathcal{F}\{U_{in}(x,y)\} \cdot \mathcal{M}(f_x, f_y; d, n)\} \]

其中 \(\mathcal{F}\) 是傅里叶变换,\(\mathcal{M}\) 是自由空间传递函数,它依赖于空间频率 \((f_x, f_y)\)、传播距离 \(d\) 和介质折射率 \(n\)。

整个光学解码过程就是入射场 \(U^{(0)}\) 依次通过每一层衍射元件的相位调制和层间的自由空间传播。最终在传感器平面上的光场 \(\rho(x,y)\) 是:

\[ \rho(x,y) = \mathcal{P}_f^{d_{L_o, L_o+1}} \left[ \prod_{l_o=1}^{L_o} \mathcal{P}_m^{\phi^{(l_o)}} \mathcal{P}_f^{d_{l_o-1, l_o}} \right] (U^{(0)}(x,y)) \]

其中 \(\mathcal{P}_m^{\phi^{(l_o)}}\) 代表第 \(l_o\) 层的相位调制。传感器记录的是光强,即 \(I_{out} = |\rho(x,y)|^2\)。

训练策略与损失函数

如前文所述,我们采用了知识蒸馏的策略。我们首先训练一个强大的数字“教师”模型(DDPM),使其能够从噪声中生成高质量图像。然后,我们的“学生”模型——即光学生成模型——的目标是模仿这位教师的行为。

我们同时优化数字编码器和衍射解码器的参数,统称为 \(\theta\)。损失函数 \(\mathcal{L}(\theta)\) 包含两个主要部分:

\[ \mathcal{L}(\theta) = \min_{\theta} \left\{ \text{MSE}(\mathcal{O}_{\text{teacher}}, s\mathcal{O}_{\text{model}}) + \gamma \text{KL}(p_{\text{teacher}} || p_{\text{model}}^{\theta}) \right\} \]

第一项是均方误差(MSE),它要求我们的光学模型生成的图像 \(\mathcal{O}_{\text{model}}\) 在经过一个可学习的缩放因子 \(s\) 调整后,与教师模型生成的图像 \(\mathcal{O}_{\text{teacher}}\) 在像素级别上尽可能接近。第二项是库尔贝克-莱布勒(KL)散度,它衡量两个概率分布的差异。我们通过比较生成图像的直方图来近似计算KL散度,确保我们的模型不仅能生成单个相似的图像,还能在整体上复刻教师模型所学习到的数据分布 \(p_{\text{teacher}}\)。\(\gamma\) 是一个超参数,用于平衡这两项损失。

图示3:迭代生成模型的反馈循环

此图详细描绘了迭代模型中的关键步骤。上一步的输出 \( \hat{\mathcal{I}}_{t-1} \) 会被加上一个调度好的高斯噪声 \( \sigma_t z \),形成新的输入 \( \mathcal{I}_{t-1} \),然后进入下一次的光学处理循环。

光学模型输出 \(\hat{\mathcal{I}}_{t-1}\) + 扰动后输入 \(\mathcal{I}_{t-1}\) 下一轮光学模型 添加调度噪声 \(\sigma_t z\) ... 重复 T 次 ...

为何选择相位编码?

在光学计算中,信息可以编码在光的振幅、相位、偏振等多个维度。我们选择相位编码作为核心策略,原因在于其固有的非线性。当两个光场叠加时,它们的复振幅相加,但最终我们探测到的是光强,即复振幅模的平方 \(I = |U_1 + U_2|^2 = |U_1|^2 + |U_2|^2 + 2|U_1||U_2|\cos(\phi_1 - \phi_2)\)。这个干涉项 \(\cos(\phi_1 - \phi_2)\) 就是一个强烈的非线性操作。

与振幅或强度编码相比,相位编码能以纯线性的光学元件(自由空间传播和相位掩模版)实现高效的非线性信息处理。如果使用振幅编码,系统的表达能力会大打折扣,因为线性光学系统的叠加仍然是线性的。我们的实验对比也证实了这一点:在相同的模型架构下,采用相位编码的生成模型,其性能(以FID分数衡量)远优于采用振幅或强度编码的模型。这种非线性能力对于学习和生成复杂的数据分布至关重要。