径向注意力：以自然之道，赋能长视频生成

引言：在信息的海洋中，学会聆听

大家好，我是Xingyang Li。在过去的几年里，我和我的团队一直沉浸在人工智能生成视频的奇妙世界里。我们见证了AI从绘制静态图像到创造出栩栩如生的动态视频的惊人飞跃。然而，一个巨大的挑战始终像一座大山一样横亘在我们面前：计算成本。

生成视频，尤其是一分钟、十分钟甚至更长的视频，需要处理的数据量是天文数字。传统的注意力机制（Attention），也就是AI模型用来理解各部分之间关联的核心部件，在这里显得力不从心。它要求模型中的每一个"像素点"（我们称之为token）都要去"关注"其他所有的像素点，无论它们在空间上相隔多远，在时间上相差多久。这种"一视同仁"的方式，我们称之为密集注意力（Dense Attention），其计算复杂度是 \(O(n^2)\)。这意味着视频长度增加一倍，计算量就要暴涨四倍！这不仅让训练和推理变得极其昂贵和缓慢，也从根本上限制了我们生成真正"长"视频的梦想。

我们开始反思：AI的"注意力"真的需要如此"密集"吗？我们人类的注意力又是如何工作的呢？

生活化类比：一场盛大的交响音乐会 🎵

想象一下，你正坐在音乐厅里欣赏一场交响乐。你的主要注意力会集中在舞台中央的首席小提琴手，以及他周围的弦乐器。你当然也能听到远处铜管乐和打击乐的声音，但它们在你感知中的重要性是随着距离而衰减的。你不可能，也完全没有必要，去同等强度地关注音乐厅里每一个乐器发出的每一个音符。你的大脑天生就会进行信息筛选，抓住重点，忽略次要细节。这是一种极其高效的机制。

那么，我们能否让AI也学会这种"有详有略"的智慧呢？

这个想法深深地启发了我们。自然界中，无论是声波、光波还是水波，其能量都会随着传播距离的增加而衰减。这似乎是一个宇宙普适的法则。我们大胆假设，在视频扩散模型中，注意力的"能量"也遵循着同样的规律。经过大量实验，我们惊喜地发现，这个现象确实存在！我们将其命名为"时空能量衰减"（Spatiotemporal Energy Decay）。基于这一发现，我们设计了一种全新的、受物理学启发的稀疏注意力机制——径向注意力（Radial Attention）。它就像一个聪明的聚光灯，将计算资源集中在最重要的地方，从而在不牺牲质量的前提下，极大地提升了效率，让长视频生成从"不可能"变成了"触手可及"。

核心发现：径向注意力的五大支柱

发现一：时空能量衰减 —— AI注意力的自然法则

我们第一个，也是最根本的发现是，在先进的视频生成模型中，注意力分数并不是均匀分布的。一个token（视频中的一个信息单元）对另一个token的关注度，会随着它们之间空间距离（在同一帧画面内的远近）和时间距离（相隔的帧数）的增加而显著下降。这种衰减趋势非常符合指数函数模型，就像石头投入水中激起的涟漪，中心最强，向外围层层递减。

生活化类比：扔石子入水 💧

你向平静的湖面扔下一颗石子，激起的波纹在中心最高最强，然后以"径向"向外扩散，越远越弱，直至消失。我们的径向注意力，正是模仿了这种能量由近及远、自然衰减的模式。AI不需要平等地关注视频的每一个角落，它只需要像涟漪一样，对"当下"和"附近"保持最强的关注，对"过去"和"远处"保持一个逐渐减弱的概览即可。

动画演示：时空能量衰减

点击中心点，观察注意力能量如何随距离衰减。

发现二：智能计算分配 —— 指数级衰减的注意力掩码

既然能量会衰减，那我们的计算资源也应该随之"衰减"。我们设计了一个简单而强大的静态注意力掩码（static attention mask）。这个掩码规定了哪些token之间可以计算注意力，哪些则直接跳过。

它的规则很简单：

时间上：对于时间上非常接近的帧（比如相邻帧），我们允许进行密集的空间注意力计算。但随着时间距离的增加（比如与10帧、20帧前的画面进行比较），我们让允许计算的区域（注意力窗口）按指数级缩小。对于非常遥远的帧，我们甚至只关注相同空间位置上的token，就像回忆一件往事时只记得关键场景一样。
空间上：在允许计算的区域内，我们优先保留空间上邻近的token之间的联系，因为视频中的物体运动通常是连续的。

这种设计，我们将能量衰减的物理现象，巧妙地转化为了计算密度的衰减，实现了"好钢用在刀刃上"。

生活化类比：变焦镜头 📷

把径向注意力想象成一个智能变焦镜头。当你看当前画面时（时间距离为0），它是广角镜，捕捉所有细节。当你要回顾1秒前的画面时，它会自动变焦，只关注画面的核心区域。当回顾10秒前的画面时，它可能已经变成了长焦镜头，只锁定在主角身上。这个"变焦"过程是自动的、指数级的，确保你总能用最合适的"焦距"来分配你的"注意力资源"。

动画演示：径向注意力掩码

拖动滑块模拟时间距离，观察有效注意力区域（亮区）的变化。

发现三：效率的"黄金分割点" —— \(O(n \log n)\) 复杂度

通过上述的掩码设计，我们成功地将注意力机制的计算复杂度从 \(O(n^2)\) 降低到了 \(O(n \log n)\)。这是一个巨大的飞跃！它意味着什么呢？

它不像密集注意力（\(O(n^2)\)）那样，因为计算量爆炸而无法处理长序列。
它也不像一些线性注意力（\(O(n)\)）的近似方法那样，为了极致的效率而牺牲了太多模型表达能力和生成质量。

\(O(n \log n)\) 是一个美妙的平衡点，它既足够高效，能够轻松处理数倍于前的视频长度，又保留了足够丰富的注意力信息，确保了视频的生成质量不打折扣。我们找到了效率和效果之间的"黄金分割点"。

生活化类比：规划一场环球旅行 ✈️

假设你要规划一场为期一年的环球旅行。

密集规划（\(O(n^2)\)）：为365天中的每一天，都去详细规划它与其他364天的所有可能关联。这不现实，你会累死在规划阶段。
线性规划（\(O(n)\)）：只规划每一天的行程，不考虑前后关联。这会导致行程脱节，缺乏连贯性。
径向规划（\(O(n \log n)\)）：你会详细规划未来几天（时间近），大致规划未来几周的路线（时间中），而对于几个月后的目的地，你可能只定下一个城市（时间远）。这种规划方式的复杂度就是对数级的，高效且合理。

动画演示：复杂度增长对比

拖动滑块增加视频帧数(n)，观察不同复杂度的计算成本增长差异。

发现四：轻量级适配 —— 用LoRA让老模型焕发新生

最令我们兴奋的一点是，径向注意力并非要我们从零开始训练一个全新的大模型。因为我们的方法保留了注意力机制的根本——Softmax，只是聪明地"跳过"了不重要的计算——所以它可以无缝地应用于已经训练好的、强大的视频模型（如HunyuanVideo, Wan2.1等）。

我们采用了一种名为LoRA（Low-Rank Adaptation）的轻量级微调技术。通过在模型的注意力层中加入小小的、可训练的"适配器"，我们就能让这些原本为短视频设计的模型，快速学会如何利用径向注意力来生成长达4倍的视频。整个过程的训练成本极低，相比于用密集注意力从头微调，我们可以节省高达4.4倍的GPU小时！

生活化类比：给专业相机换上新镜头 🔭

你有一台顶级的专业相机（预训练模型），但它只有一个标准镜头（只能拍短视频）。现在，你不想重新买一台相机，而是给它配上了一个强大的变焦镜头（径向注意力）。你不需要重新学习摄影，只需要花一点点时间熟悉新镜头的手感和特性（LoRA微调），就能立刻开始拍摄以前无法企及的远景和长焦大片（长视频）。

动画演示：LoRA微调的力量

观察两种微调方式对"模型"（大方块）的改变速度和范围。

发现五：实证为王 —— 质量与速度的双重胜利

理论和比喻再好，最终还是要看实际效果。我们在多个顶尖的文生视频模型上进行了广泛的实验，结果令人振奋：

速度飞跃： 在生成默认长度的视频时，径向注意力带来了最高1.9倍的端到端加速。在生成4倍长度的视频时，推理速度更是提升了3.7倍。
成本骤降： 在进行长视频微调时，我们的方法将训练成本降低了惊人的4.4倍。
质量不减： 更重要的是，所有这些效率提升，都建立在视频质量几乎无损的基础上。在多项客观指标（如PSNR, SSIM）和更反映人类偏好的Vision Reward评分上，径向注意力的表现都与昂贵的密集注意力相当，甚至在某些长视频场景下略有胜出。

我们真正实现了"更快、更省、同样好"的目标，打破了长久以来束缚视频生成模型的性能枷锁。

生活化类比：F1赛车的引擎革新 🏎️

我们的工作，就像为一辆F1赛车设计了一款全新的引擎。这款新引擎不仅让赛车跑得更快（3.7倍加速），还极大地降低了燃油消耗（4.4倍成本节省），同时赛车的操控性和过弯稳定性（视频质量）丝毫未减。这是一场彻头彻尾的技术胜利。

动画演示：生成速度对比

点击开始，直观感受径向注意力的速度优势。

技术细节：深入径向注意力的数学心脏

为了让大家更深入地理解径向注意力的工作原理，我们来剖析其核心的数学定义。别担心，我会用最直观的方式来解读这些公式。

我们最终使用的注意力计算公式是稀疏注意力（Sparse Attention）的标准形式： \[ \text{SparseAttention}(Q, K, V) = \text{softmax}\left(\frac{QK^T + M}{\sqrt{d}}\right)V \] 这里的关键在于我们如何设计这个掩码矩阵 \(M\)。\(M\) 的元素要么是0（允许计算），要么是 \(-\infty\)（禁止计算）。径向注意力的灵魂，就藏在这个 \(M\) 的构建规则里。

我们将视频看作一个三维数据体，包含 \(f\) 帧，每帧有 \(s\) 个token。我们定义一个四维的掩码 \(\tilde{M}\)，它的元素 \(\tilde{M}_{i,j,k,l}\) 决定了第 \(i\) 帧的第 \(k\) 个token是否能关注第 \(j\) 帧的第 \(l\) 个token。其规则如下：

径向注意力掩码 \(\tilde{M}\) 定义：

\[ \tilde{M}_{i,j,k,l} = \begin{cases} 0, & \text{if } 2^{\lfloor\log_2 \max(|i-j|,1)\rfloor} \le s \text{ and } |k-l|+1 \le \frac{s}{2^{\lfloor\log_2 \max(|i-j|,1)\rfloor}} \\ 0, & \text{if } |i-j| \pmod{\lceil \frac{2^{\lfloor\log_2 \max(|i-j|,1)\rfloor}}{s} \rceil} = 0 \text{ and } k=l \\ -\infty, & \text{otherwise} \end{cases} \]

公式解读：

|i-j|：这是时间距离，即帧与帧之间的间隔。
|k-l|：这是空间距离，即同一帧内token的间隔。
第一条规则 (主要规则): 这是为时间距离较近的情况设计的。分母 \(2^{\lfloor\log_2 \max(|i-j|,1)\rfloor}\) 是一个关键项，它会随着时间距离 \(|i-j|\) 的增加而按2的幂次增长。这意味着，允许关注的空间范围（由分子 \(s\) 除以这个增长项决定）会随时间距离指数级缩小。
示例：假设每帧有 \(s=64\) 个token。
- 当 \(|i-j|=1\) (相邻帧)，分母为1，空间窗口宽度为64（全关注）。
- 当 \(|i-j|=2\), 分母为2，空间窗口宽度减半为32。
- 当 \(|i-j|=4\), 分母为4，空间窗口宽度再减半为16。
这就是计算密度指数衰减的来源。
第二条规则 (稀疏采样): 当时间距离 \(|i-j|\) 太远，导致第一条规则算出的空间窗口宽度小于1时，我们切换到这条规则。它不再计算一个连续的窗口，而是进行"跳跃式"的稀疏采样。我们只在特定的时间间隔（由取模运算决定）上，允许token关注过去帧中完全相同空间位置（\(k=l\)）的token。这保证了即使在非常遥远的过去，模型也能"回看"到关键位置的演变，保持长期一致性。
第三条规则: 不满足以上任何一条，就禁止计算注意力（设为\(-\infty\)）。

此外，我们还加入了一个"注意力池"（Attention Sink）的机制，强制所有token都能关注第一帧的内容。这就像给视频定下了一个"总基调"，有助于保证全局的一致性。

通过这个精巧的设计，我们将总的计算量控制在了 \(O(fs \log f)\) 的水平，当空间分辨率 \(s\) 固定时，对于长视频（\(f\) 很大），整体复杂度就是 \(O(n \log n)\)。这个数学推导不仅理论优美，更在实际硬件上带来了实实在在的性能提升。

实验结果：数据胜于雄辩

我们在多个主流文生视频模型上，将径向注意力与原始的密集注意力及其他稀疏方案进行了对比。图表清晰地展示了我们的优势。

默认视频长度下的性能对比 (HunyuanVideo)

数据显示，径向注意力(Ours)在质量(PSNR)上与昂贵的原始模型相当，远超其他稀疏方法，同时延迟大幅降低。

长视频生成(4倍长度)的成本与速度对比

在生成4倍长视频时，径向注意力将训练成本（GPU小时）和推理时间（秒）都降低到原来的1/4左右。

注意力能量衰减的指数拟合

实验数据（蓝点）与指数衰减模型（红线）高度吻合（R² > 0.985），这为我们理论的正确性提供了坚实证据。

结论：开启高效长视频生成的新篇章

回顾我们的研究历程，从一个源于物理世界的朴素观察，到一个能够实际落地、并带来巨大性能提升的算法，这段旅程充满了探索的乐趣。径向注意力不仅仅是一个技术优化，它更代表了一种新的设计哲学：向自然学习，用自然的法则去指导AI的设计。

我们证明了，通过模拟"能量衰减"这一基本原理，我们可以在AI视频生成领域实现效率与质量的和谐统一。这项工作为未来更大规模、更高分辨率、更长时程的视频模型铺平了道路，让AI辅助内容创作的边界得以再次拓宽。

当然，探索永无止境。未来，我们希望将径向注意力直接用于模型的预训练阶段，而不是仅作为微调工具，从而原生支持长视频。同时，如何进一步优化高分辨率下的计算效率，也是我们下一个挑战的目标。我坚信，通过不断从自然和物理世界中汲取灵感，我们能够构建出更强大、更高效、也更"优雅"的AI系统。感谢大家的关注！