RareFold:突破蛋白质设计边界的革命性工具

Qiuzhen Li, Diandra Daumiller, Patrick Bryant
斯德哥尔摩大学分子生物科学系 & 生命科学实验室

研究背景:从20种氨基酸到无限可能

作为研究团队,我们深知传统蛋白质结构预测和设计面临的根本性限制[1]。生命体虽然仅使用20种标准氨基酸,但自然界实际存在超过500种氨基酸类型,其中140种已知可以天然整合到蛋白质中[1]。这种巨大的化学多样性为蛋白质工程提供了前所未有的机遇。

我们意识到,非标准氨基酸(NCAAs)不仅能够提供独特的化学性质,还具有重要的治疗优势:蛋白酶抗性和潜在的免疫逃逸能力[1]。由于人体免疫系统很少遇到这些修饰氨基酸,它们在治疗应用中具有显著优势。

动画1:氨基酸多样性展示

动画解释:此动画展示了从20种标准氨基酸扩展到49种(20+29种NCAAs)的过程。就像化学周期表中元素的发现扩展了化学反应的可能性一样,增加更多氨基酸类型极大地扩展了蛋白质设计的化学空间。
物理类比:这就像从单色光扩展到全光谱——标准氨基酸如同可见光的基本色彩,而NCAAs则像红外、紫外等不可见光谱,为我们提供了全新的"颜色"来"绘制"蛋白质结构。

技术突破:标记化表示的创新架构

我们的RareFold采用了革命性的标记化表示方法,将每个氨基酸(无论是标准的还是修饰的)都视为独特的标记[1]。这与AlphaFold3的原子级处理方式形成鲜明对比,我们的方法在计算效率和设计适用性方面具有明显优势。

我们基于EvoFormer架构进行了扩展,能够学习共进化关系和结构模式。这种设计选择不仅提高了计算效率,还使模型能够学习NCAAs如何整合到蛋白质结构中的协同进化关系[1]。

RareFold损失函数 = 0.5 × FAPE + 0.5 × AUX + 0.3 × Distance + 0.2 × MSA + 0.01 × Confidence

动画2:RareFold架构流程

动画解释:展示了从输入序列到最终结构预测的完整流程。MSA(多序列比对)处理、行列注意力机制、三角注意力机制,最终映射到原子坐标框架。
物理类比:类似于量子计算中的叠加态处理——每个氨基酸标记包含了所有可能的结构信息,通过注意力机制的"量子纠缠"式交互,最终"坍缩"到确定的三维结构。

性能评估:与AlphaFold3的全面对比

我们在包含743个验证结构的数据集上进行了严格测试,覆盖24种不同的NCAA类型[1]。结果显示,RareFold在侧链RMSD方面表现出色,与标准氨基酸的预测精度相当。

特别值得注意的是,在处理硒代蛋氨酸(MSE)时,RareFold避免了AlphaFold3扩散模块产生的原子重叠问题,生成了更加物理合理的结构[1]。虽然AF3在全局IDDT评分上略高,但这主要归因于其更大的训练数据集和更长的输入裁剪长度。

动画3:性能对比可视化

动画解释:动态展示RareFold与AlphaFold3在不同NCAA类型上的性能对比,包括侧链RMSD、Ca IDDT评分等关键指标。
物理类比:就像测量不同材料的导电性——有些材料(NCAA类型)在我们的"导电测试"(结构预测)中表现更好,而有些则需要更多的"电压"(计算资源)才能达到相同的"导电效果"(预测精度)。

设计应用:EvoBindRare框架

我们将RareFold反向工程为设计框架EvoBindRare(EBR),这是首个能够从零开始设计含有NCAAs的线性和环状肽结合体的方法[1]。我们使用联合序列-结构优化策略,在1000步突变过程中设计了10-20个残基的结合肽。

EBR损失函数 = 肽段pIDDT^(-1) × (1/n × Σd_j) + %原子冲突

针对核糖核酸酶(1SSC)的实验验证表明,我们设计的线性结合体达到了2.13 μM的亲和力,环状结合体达到了8.77 μM的亲和力,与已知野生型结合体的1.81 μM相当[1]。

动画4:肽段设计优化过程

动画解释:展示EvoBindRare如何通过迭代优化找到最佳结合序列,包括随机初始化、突变、评分和选择的完整循环。
物理类比:类似于模拟退火过程——系统在高"温度"下随机探索序列空间,随着优化进行"温度"降低,最终"结晶"出最优的结合序列,就像金属冷却时原子排列成最稳定的晶体结构。

实验验证:表面等离子体共振技术

我们使用表面等离子体共振(SPR)技术验证了设计肽段的结合亲和力[1]。实验在Biacore 8K系统上进行,采用单循环动力学实验,浓度范围从2 nM到20 μM。

成功的线性结合体包含三种NCAAs,均预测与靶标界面相互作用,而环状结合体包含一种NCAA,也位于预测的界面位置[1]。这验证了我们的预测模型的准确性和设计策略的有效性。

动画5:分子结合动力学模拟

动画解释:3D模拟展示设计的肽段如何与靶蛋白结合,包括NCAAs在结合界面的关键作用。颜色编码显示不同类型的分子间相互作用。
物理类比:就像锁和钥匙的匹配过程——但我们的"钥匙"(肽段)使用了特殊的"合金"(NCAAs),这些特殊材料提供了更好的"咬合力"和"耐磨性",使得钥匙更难被"磨损"(蛋白酶降解)且不易被"识别"(免疫反应)。

创新意义与未来展望

RareFold代表了蛋白质设计领域的重大突破。我们首次实现了大规模NCAA结构预测,并成功将其应用于功能性结合体设计[1]。这种能力为治疗性肽段开发开辟了全新途径,特别是在靶向难以成药靶点、提高蛋白酶稳定性和规避免疫识别方面。

我们的标记化架构特别适合这一任务,允许快速评估、适应新的靶标功能,并与仅需序列信息的设计流程兼容[1]。正如我们在最近的HIV-1研究中所展示的,逆向设计方法使得蛋白质设计能够扩展到新的化学和结构领域。

动画6:未来应用前景展望

动画解释:展示RareFold在药物发现、个性化医疗、工业酶设计等领域的潜在应用,以及如何推动下一代蛋白质治疗学的发展。
物理类比:就像发现新元素对化学的影响——当门捷列夫预测并发现了新元素时,整个化学景观都发生了变化。RareFold通过扩展"蛋白质周期表",为生物医学开辟了全新的"化学反应"可能性。

技术细节与方法学创新

我们的数据集包含74,882个单链蛋白质结构,涵盖331种独特的氨基酸类型[1]。通过MMseqs2在20%序列同一性下进行聚类,我们获得了9,031个聚类。为了解决NCAA数据稀缺问题,我们专注于频率最高的50种氨基酸,包含30种NCAAs。

我们实施了创新的批量采样策略:一半批量包含NCAAs(按逆频率采样),另一半按序列聚类出现频率采样,确保模型既能学习NCAA特性,又能掌握多样的蛋白质结构[1]。

微调阶段我们应用了额外的损失函数来减少残基间冲突、原子冲突和极端Cα-Cα距离,使模型无需昂贵的弛豫步骤即可产生高质量结构[1]。

结论:开启蛋白质设计新纪元

RareFold通过结合准确的NCAA结构预测与高效的设计策略,为新一代肽类治疗药物奠定了基础,这些药物将结构新颖性与功能精确性完美结合[1]。我们的工作不仅推动了计算生物学的发展,更为解决重大医学挑战提供了强有力的工具。

作为研究团队,我们深信这项工作将激发更多创新,推动蛋白质设计从传统的20种氨基酸限制中解放出来,迎接一个充满无限可能的新时代。RareFold不仅是一个工具,更是通往未来蛋白质工程的桥梁