作为研究团队,我们深知传统蛋白质结构预测和设计面临的根本性限制[1]。生命体虽然仅使用20种标准氨基酸,但自然界实际存在超过500种氨基酸类型,其中140种已知可以天然整合到蛋白质中[1]。这种巨大的化学多样性为蛋白质工程提供了前所未有的机遇。
我们意识到,非标准氨基酸(NCAAs)不仅能够提供独特的化学性质,还具有重要的治疗优势:蛋白酶抗性和潜在的免疫逃逸能力[1]。由于人体免疫系统很少遇到这些修饰氨基酸,它们在治疗应用中具有显著优势。
我们的RareFold采用了革命性的标记化表示方法,将每个氨基酸(无论是标准的还是修饰的)都视为独特的标记[1]。这与AlphaFold3的原子级处理方式形成鲜明对比,我们的方法在计算效率和设计适用性方面具有明显优势。
我们基于EvoFormer架构进行了扩展,能够学习共进化关系和结构模式。这种设计选择不仅提高了计算效率,还使模型能够学习NCAAs如何整合到蛋白质结构中的协同进化关系[1]。
我们在包含743个验证结构的数据集上进行了严格测试,覆盖24种不同的NCAA类型[1]。结果显示,RareFold在侧链RMSD方面表现出色,与标准氨基酸的预测精度相当。
特别值得注意的是,在处理硒代蛋氨酸(MSE)时,RareFold避免了AlphaFold3扩散模块产生的原子重叠问题,生成了更加物理合理的结构[1]。虽然AF3在全局IDDT评分上略高,但这主要归因于其更大的训练数据集和更长的输入裁剪长度。
我们将RareFold反向工程为设计框架EvoBindRare(EBR),这是首个能够从零开始设计含有NCAAs的线性和环状肽结合体的方法[1]。我们使用联合序列-结构优化策略,在1000步突变过程中设计了10-20个残基的结合肽。
针对核糖核酸酶(1SSC)的实验验证表明,我们设计的线性结合体达到了2.13 μM的亲和力,环状结合体达到了8.77 μM的亲和力,与已知野生型结合体的1.81 μM相当[1]。
我们使用表面等离子体共振(SPR)技术验证了设计肽段的结合亲和力[1]。实验在Biacore 8K系统上进行,采用单循环动力学实验,浓度范围从2 nM到20 μM。
成功的线性结合体包含三种NCAAs,均预测与靶标界面相互作用,而环状结合体包含一种NCAA,也位于预测的界面位置[1]。这验证了我们的预测模型的准确性和设计策略的有效性。
RareFold代表了蛋白质设计领域的重大突破。我们首次实现了大规模NCAA结构预测,并成功将其应用于功能性结合体设计[1]。这种能力为治疗性肽段开发开辟了全新途径,特别是在靶向难以成药靶点、提高蛋白酶稳定性和规避免疫识别方面。
我们的标记化架构特别适合这一任务,允许快速评估、适应新的靶标功能,并与仅需序列信息的设计流程兼容[1]。正如我们在最近的HIV-1研究中所展示的,逆向设计方法使得蛋白质设计能够扩展到新的化学和结构领域。
我们的数据集包含74,882个单链蛋白质结构,涵盖331种独特的氨基酸类型[1]。通过MMseqs2在20%序列同一性下进行聚类,我们获得了9,031个聚类。为了解决NCAA数据稀缺问题,我们专注于频率最高的50种氨基酸,包含30种NCAAs。
我们实施了创新的批量采样策略:一半批量包含NCAAs(按逆频率采样),另一半按序列聚类出现频率采样,确保模型既能学习NCAA特性,又能掌握多样的蛋白质结构[1]。
微调阶段我们应用了额外的损失函数来减少残基间冲突、原子冲突和极端Cα-Cα距离,使模型无需昂贵的弛豫步骤即可产生高质量结构[1]。
RareFold通过结合准确的NCAA结构预测与高效的设计策略,为新一代肽类治疗药物奠定了基础,这些药物将结构新颖性与功能精确性完美结合[1]。我们的工作不仅推动了计算生物学的发展,更为解决重大医学挑战提供了强有力的工具。
作为研究团队,我们深信这项工作将激发更多创新,推动蛋白质设计从传统的20种氨基酸限制中解放出来,迎接一个充满无限可能的新时代。RareFold不仅是一个工具,更是通往未来蛋白质工程的桥梁。