RareFold：突破蛋白质设计边界的革命性工具

研究背景：从20种氨基酸到无限可能

作为研究团队，我们深知传统蛋白质结构预测和设计面临的根本性限制[1]。生命体虽然仅使用20种标准氨基酸，但自然界实际存在超过500种氨基酸类型，其中140种已知可以天然整合到蛋白质中[1]。这种巨大的化学多样性为蛋白质工程提供了前所未有的机遇。

我们意识到，非标准氨基酸（NCAAs）不仅能够提供独特的化学性质，还具有重要的治疗优势：蛋白酶抗性和潜在的免疫逃逸能力[1]。由于人体免疫系统很少遇到这些修饰氨基酸，它们在治疗应用中具有显著优势。

动画解释：此动画展示了从20种标准氨基酸扩展到49种（20+29种NCAAs）的过程。就像化学周期表中元素的发现扩展了化学反应的可能性一样，增加更多氨基酸类型极大地扩展了蛋白质设计的化学空间。

物理类比：这就像从单色光扩展到全光谱——标准氨基酸如同可见光的基本色彩，而NCAAs则像红外、紫外等不可见光谱，为我们提供了全新的"颜色"来"绘制"蛋白质结构。

我们的RareFold采用了革命性的标记化表示方法，将每个氨基酸（无论是标准的还是修饰的）都视为独特的标记[1]。这与AlphaFold3的原子级处理方式形成鲜明对比，我们的方法在计算效率和设计适用性方面具有明显优势。

我们基于EvoFormer架构进行了扩展，能够学习共进化关系和结构模式。这种设计选择不仅提高了计算效率，还使模型能够学习NCAAs如何整合到蛋白质结构中的协同进化关系[1]。

RareFold损失函数 = 0.5 × FAPE + 0.5 × AUX + 0.3 × Distance + 0.2 × MSA + 0.01 × Confidence

动画解释：展示了从输入序列到最终结构预测的完整流程。MSA（多序列比对）处理、行列注意力机制、三角注意力机制，最终映射到原子坐标框架。

物理类比：类似于量子计算中的叠加态处理——每个氨基酸标记包含了所有可能的结构信息，通过注意力机制的"量子纠缠"式交互，最终"坍缩"到确定的三维结构。

我们在包含743个验证结构的数据集上进行了严格测试，覆盖24种不同的NCAA类型[1]。结果显示，RareFold在侧链RMSD方面表现出色，与标准氨基酸的预测精度相当。

特别值得注意的是，在处理硒代蛋氨酸（MSE）时，RareFold避免了AlphaFold3扩散模块产生的原子重叠问题，生成了更加物理合理的结构[1]。虽然AF3在全局IDDT评分上略高，但这主要归因于其更大的训练数据集和更长的输入裁剪长度。

动画解释：动态展示RareFold与AlphaFold3在不同NCAA类型上的性能对比，包括侧链RMSD、Ca IDDT评分等关键指标。

物理类比：就像测量不同材料的导电性——有些材料（NCAA类型）在我们的"导电测试"（结构预测）中表现更好，而有些则需要更多的"电压"（计算资源）才能达到相同的"导电效果"（预测精度）。

我们将RareFold反向工程为设计框架EvoBindRare（EBR），这是首个能够从零开始设计含有NCAAs的线性和环状肽结合体的方法[1]。我们使用联合序列-结构优化策略，在1000步突变过程中设计了10-20个残基的结合肽。

EBR损失函数 = 肽段pIDDT^(-1) × (1/n × Σd_j) + %原子冲突

针对核糖核酸酶（1SSC）的实验验证表明，我们设计的线性结合体达到了2.13 μM的亲和力，环状结合体达到了8.77 μM的亲和力，与已知野生型结合体的1.81 μM相当[1]。

动画解释：展示EvoBindRare如何通过迭代优化找到最佳结合序列，包括随机初始化、突变、评分和选择的完整循环。

物理类比：类似于模拟退火过程——系统在高"温度"下随机探索序列空间，随着优化进行"温度"降低，最终"结晶"出最优的结合序列，就像金属冷却时原子排列成最稳定的晶体结构。

我们使用表面等离子体共振（SPR）技术验证了设计肽段的结合亲和力[1]。实验在Biacore 8K系统上进行，采用单循环动力学实验，浓度范围从2 nM到20 μM。

成功的线性结合体包含三种NCAAs，均预测与靶标界面相互作用，而环状结合体包含一种NCAA，也位于预测的界面位置[1]。这验证了我们的预测模型的准确性和设计策略的有效性。

动画解释：3D模拟展示设计的肽段如何与靶蛋白结合，包括NCAAs在结合界面的关键作用。颜色编码显示不同类型的分子间相互作用。

物理类比：就像锁和钥匙的匹配过程——但我们的"钥匙"（肽段）使用了特殊的"合金"（NCAAs），这些特殊材料提供了更好的"咬合力"和"耐磨性"，使得钥匙更难被"磨损"（蛋白酶降解）且不易被"识别"（免疫反应）。

RareFold代表了蛋白质设计领域的重大突破。我们首次实现了大规模NCAA结构预测，并成功将其应用于功能性结合体设计[1]。这种能力为治疗性肽段开发开辟了全新途径，特别是在靶向难以成药靶点、提高蛋白酶稳定性和规避免疫识别方面。

我们的标记化架构特别适合这一任务，允许快速评估、适应新的靶标功能，并与仅需序列信息的设计流程兼容[1]。正如我们在最近的HIV-1研究中所展示的，逆向设计方法使得蛋白质设计能够扩展到新的化学和结构领域。

动画解释：展示RareFold在药物发现、个性化医疗、工业酶设计等领域的潜在应用，以及如何推动下一代蛋白质治疗学的发展。

物理类比：就像发现新元素对化学的影响——当门捷列夫预测并发现了新元素时，整个化学景观都发生了变化。RareFold通过扩展"蛋白质周期表"，为生物医学开辟了全新的"化学反应"可能性。

我们的数据集包含74,882个单链蛋白质结构，涵盖331种独特的氨基酸类型[1]。通过MMseqs2在20%序列同一性下进行聚类，我们获得了9,031个聚类。为了解决NCAA数据稀缺问题，我们专注于频率最高的50种氨基酸，包含30种NCAAs。

我们实施了创新的批量采样策略：一半批量包含NCAAs（按逆频率采样），另一半按序列聚类出现频率采样，确保模型既能学习NCAA特性，又能掌握多样的蛋白质结构[1]。

微调阶段我们应用了额外的损失函数来减少残基间冲突、原子冲突和极端Cα-Cα距离，使模型无需昂贵的弛豫步骤即可产生高质量结构[1]。

RareFold通过结合准确的NCAA结构预测与高效的设计策略，为新一代肽类治疗药物奠定了基础，这些药物将结构新颖性与功能精确性完美结合[1]。我们的工作不仅推动了计算生物学的发展，更为解决重大医学挑战提供了强有力的工具。

作为研究团队，我们深信这项工作将激发更多创新，推动蛋白质设计从传统的20种氨基酸限制中解放出来，迎接一个充满无限可能的新时代。RareFold不仅是一个工具，更是通往未来蛋白质工程的桥梁。