引言:从“盲人摸象”到“全景交响”
大家好,我是Stéphane d'Ascoli。今天,我想和大家分享一段激动人心的科研旅程。在神经科学的广阔天地里,我们长久以来就像一群“盲人摸象”的探索者。有的同事专注于视觉皮层,有的深耕于听觉通路,还有的则致力于解码语言的奥秘。这种“分而治之”的策略无疑为我们带来了深刻的洞见,但也留下了一个核心的遗憾:我们对大脑如何将这些零散的信息整合成一个统一、连贯的认知世界,知之甚少。
这就像我们分别研究了小提琴、大提琴和钢琴的构造与音色,却从未有机会聆听它们共同奏响的交响乐。我们的大脑,正是在演奏这样一首宏伟的、多模态的交响乐。当我们观看一部电影时,我们不是孤立地处理画面、声音和字幕,而是将它们无缝地融合成一个完整的情感与叙事体验。那么,我们能否构建一个模型,像大脑一样,能够同时“聆听”并“理解”这整部交响乐呢?
正是这个挑战,催生了我们的项目——**TRIBE (TRImodal Brain Encoder)**。我们的目标,是创造一个能够跨越模态、跨越脑区、甚至跨越个体差异的统一大脑编码模型。我们希望它不仅仅是一个被动的预测器,更是一面能够映照出大脑内部表征整合过程的“AI魔镜”。这趟旅程充满了挑战,但也充满了前所未有的发现。现在,请随我一同深入这场探索,看看我们是如何教AI“读懂”大脑对真实世界的多感官响应的。
构建TRIBE:一位耐心的“三栖”聆听者
要让一个模型理解大脑的“交响乐”,首先它必须能听懂每一种“乐器”的语言。在我们的工作中,这些“乐器”就是视频中的三大核心信息流:**文本(Text)、音频(Audio)和视觉(Video)**。我们没有从零开始,而是站在了巨人的肩膀上,利用了当今最强大的三个基础模型,分别作为我们对应三种模态的“耳朵”和“眼睛”。
静态示意图:TRIBE模型架构
下图简要展示了TRIBE的工作流程。来自视频的文本、音频和视觉信息,首先被各自领域的专家模型(Llama 3.2, Wav2Vec2-Bert, V-JEPA 2)编码成高维度的特征向量。这些特征随后被送入一个核心的Transformer编码器进行时序整合,最终预测出全脑1000个脑区的fMRI信号。
我们的方法可以概括为三个步骤:
- 专业分工的特征提取:我们用Llama 3.2处理文本,它能捕捉到丰富的语义和上下文信息;用Wav2Vec2-Bert处理音频,它对声音的物理属性和语音内容都很敏感;用V-JEPA 2处理视频帧,它擅长理解动态的视觉场景。这些模型像专家一样,将原始的、非结构化的数据转化为计算机可以理解的、高维度的“神经编码”。
- 时间对齐与融合:电影是流动的艺术,信息在时间上紧密相连。我们将三种模态的特征在时间上精确对齐(以2Hz的频率),然后将它们“捆绑”在一起,形成一个包含了所有信息的、更丰富的多模态时间序列。
- Transformer的核心整合:这是TRIBE的心脏。我们使用一个Transformer编码器来处理这个多模态时间序列。Transformer的自注意力机制(Self-Attention)是这里的关键,它能动态地判断在任意一个时间点,哪一种模态的信息更重要,以及信息之间如何相互影响。
这就像一个乐队指挥(Transformer),他不仅要听每个声部(各模态),还要理解它们之间的和声与对位,从而指挥整个乐队奏出和谐的乐章。下面的动画生动地展示了这个过程。
动画1:模态整合的交响乐
想象一下,红色、绿色和蓝色的粒子分别代表来自文本、音频和视觉的信息流。它们各自携带着独特的信息,在一个动态的“场”中流动。当它们汇入中心的“整合器”(Transformer)时,它们不再是孤立的,而是相互作用、彼此影响,最终形成一股五彩斑斓、信息更丰富的“认知流”。这正是TRIBE的核心工作——创造性地融合,而非简单地叠加。
三位一体的力量:为何多模态全面胜出?
一个自然而然的问题是:我们真的需要这么麻烦地整合三种模态吗?只用视觉模型预测视觉皮层,用语言模型预测语言区,不是更直接吗?为了回答这个问题,我们进行了一系列严格的“消融实验”(Ablation Study),就像在交响乐队中依次让不同声部的乐手静音,来观察对整体乐曲的影响。
结果是惊人的,并且完全印证了我们的猜想。如下图所示,无论是单模态(只用文本、音频或视频)还是双模态的组合,其预测大脑活动的能力都显著低于我们将三者结合起来的完整TRIBE模型。这说明,大脑的运作方式并非简单的“分区承包”,而是一个高度整合的系统。
动画2:1+1+1 > 3 的力量
这个动画直观地展示了多模态的“协同效应”。单独的文本(T)、音频(A)和视频(V)模型,它们各自的预测性能(分数)是有限的。然而,当我们将它们的力量结合(A+T+V),最终的性能不是简单的相加,而是产生了质的飞跃,超越了任何单一或双重组合。点击“开始融合”按钮,见证这一协同效应的发生。
这种优势在“联想皮层”(Associative Cortices)——如前额叶、顶叶等高级脑区——中表现得尤为明显。这些脑区正是负责抽象思考、情感理解和决策等复杂认知功能的地方。这就像理解一句讽刺的话,你不能只看字面意思(文本),还需要听说话的语气(音频),并观察说话者的表情(视觉)。只有将三者结合,才能正确get到其中的深意。我们的TRIBE模型正是通过模拟这种整合,才得以更好地预测这些高级脑区的活动。
静态示意图:多模态增益的脑区分布
这张脑图清晰地标示出了多模态模型(TRIBE)相比于最优的单模态模型,在哪些脑区的预测性能提升最大。红色越暖的区域,代表多模态带来的“增益”越大。我们可以看到,这些增益区域广泛分布在负责高级认知功能的联想皮层,而不仅仅是初级感觉皮层。
绘制大脑交响乐的“功能地图”
既然TRIBE能够理解大脑的“交响乐”,那么它能否反过来告诉我们,大脑的哪些区域主要负责处理哪些“乐器”的声音,哪些区域又负责将它们进行“混音”呢?通过分析TRIBE模型,我们得以绘制出一幅前所未有的大脑功能地图。
我们发现,不同模态的信息在大脑中有着清晰的“优势区域”。视觉信息(蓝色)毫无疑问地主导着枕叶的视觉皮层;听觉信息(绿色)则在颞叶的听觉皮层占据主导;而更抽象的文本/语义信息(红色)的影响力则更为广泛,遍布顶叶和前额叶等高级认知区域。这与经典的神经科学知识高度吻合。
动画3:交互式大脑“频道”地图
这是一张简化的大脑地图。将鼠标悬停在不同的脑区上,你可以看到该区域主要由哪种信息模态主导。这就像给大脑调频道:枕叶是“视频频道”,颞叶是“音频频道”,而额叶和顶叶则是处理深度剧情的“综合频道”。
更有趣的是那些“混合区域”。通过一种特殊的RGB颜色编码,我们得以可视化不同模态相互作用的区域。例如,我们能清晰地看到颞上回呈现出黄色(红+绿),这表明该区域在紧密地整合文本语义和声音信息,这正是语言理解的核心区域。而在视觉通路的某些地方,我们看到了青色(绿+蓝),暗示着声音和画面的初级整合。这个发现为我们理解大脑如何实现跨模态整合提供了全新的、数据驱动的证据。
动画4:模态交互的色彩魔法
拖动代表文本(红)、音频(绿)和视觉(蓝)的三个光球。当它们重叠时,会混合出新的颜色,直观地展示了模态间的交互关系。黄色(红+绿)代表文本与音频的融合,青色(绿+蓝)代表音频与视觉的融合,而当三者交汇时,中心区域的白色则象征着最高层次的全模态整合。
永无止境的攀登:规模效应与未来展望
在AI领域,一个普遍的规律是“规模效应”(Scaling Laws):更多的数据、更大的模型通常会带来更好的性能。我们的研究也证实了这一点。我们发现,随着用于训练的fMRI数据量的增加,TRIBE的预测准确率也呈现出近乎线性的、没有饱和迹象的增长。这非常令人兴奋,因为它意味着我们目前所达到的性能还远非极限。
动画5:性能的攀升阶梯
此图表展示了模型预测准确率(纵轴)随训练数据量(横轴)的变化。动画开始后,你会看到性能曲线随着数据量的增加而稳步攀升,并且没有减缓的趋势。这预示着,只要我们能获取更多、更高质量的大脑数据,我们就能构建出更加精准的大脑模型。
当然,我们的工作也存在局限。目前我们是在一个相对粗糙的脑区划分(1000个功能区)上进行操作,这限制了我们模型的空间分辨率。此外,fMRI信号的时间分辨率也无法捕捉到神经元毫秒级的快速放电。未来,将我们的模型适配到更高精度的体素层面,并结合脑磁图(MEG)等高时间分辨率的数据,将是重要的发展方向。
尽管如此,TRIBE的成功为我们开启了一扇通往未来的大门——“计算神经科学的在体实验”(in silico experimentation)。我们或许能够在一个高度精确的虚拟大脑模型上,进行传统生物实验难以实现的探索,去检验关于认知、意识甚至疾病的各种复杂假说。在Algonauts 2025脑编码竞赛中,TRIBE力压群雄夺得第一,这不仅是一份荣誉,更是对我们这条整合、非线性、多模态研究路径的有力肯定。我们相信,这只是攀登的开始,前方的风景必将更加壮丽。