检测到您的浏览器版本过低,可能导致某些功能无法正常使用,建议升级您的浏览器,或使用推荐浏览器 Google Chrome 、Edge、Firefox 。 X
mRNA技术在疫苗与治疗领域的潜力不断被认识,但如何在庞大的序列空间中获得兼具高翻译效率、稳定性与低免疫原性的设计,仍是研发过程中最具挑战性的难题之一。mRNA分子的编码区(CDS)与非翻译区(UTR)共同决定其在体内的表达行为,而各区域之间又存在复杂的结构耦合关系,使传统规则难以在系统层面获得最优解。随着生成式人工智能的发展,研究者尝试将自然语言模型的方法引入到 mRNA 序列设计中,希望借助深度模型在高维空间中学习结构特征,从而提升 mRNA 的整体性能。
基于此思路,研究者提出了生成模型体系GEMORNA,以生成式AI的方式探索mRNA序列空间。该模型通过针对CDS与UTR分别构建语言模型,再进一步组合生成全长mRNA,旨在以更整体的方式理解序列属性与表达之间的关系,并在不同实验体系中观察其表现。整体来看,这一平台在多个蛋白类型与模型中展示了较显著的性能提升,为mRNA序列设计提供了新的方法思路。
一、mRNA 序列设计的固有挑战:高维组合空间与多目标平衡
mRNA序列空间极为庞大,例如一个上千核苷酸的序列拥有指数级组合可能,其行为受到密码子选择、局部结构、全球折叠、核糖体加载、翻译动力学等因素的共同影响。传统优化策略通常聚焦单一参数,如:GC含量;密码子适应指数(CAI);稀有密码子比例;局部结构稳定性。这些方法在一定程度上有效,但较难兼顾整体性质,也难以捕捉序列间复杂的协同关系。
在建模方面,早期深度学习方法多采用LSTM处理序列,但由于其对长序列的处理能力有限,加之训练数据规模不够充足,往往面临泛化能力不足的问题。此外,真实应用中的mRNA经常包含修饰碱基,而许多模型尚未充分考虑这一情况,使得生成的序列难以直接用于实验体系。尤其在 5′UTR的设计上,难度更为突出。5′UTR涉及核糖体加载与起始调控,关系复杂,而现有优化基于局部评估或遗传算法,很容易陷入局部最优点,无法充分探索潜在的更优序列区域。这些挑战共同使 mRNA 序列设计长期依赖手工调控与局部优化。
二、生成式AI的引入:序列语言建模与结构特征学习
GEMORNA借鉴生成式模型在文本领域的思想,将mRNA序列视作“语言”,利用大规模生物序列构建RNA语言模型,使模型能够自动学习密码子偏好、二级结构模式、不良序列模式等多层次特征。
为兼顾不同功能区域的差异,模型体系分为三个部分:
1. GEMORNA-CDS:负责生成编码区序列
2. GEMORNA-UTR:负责生成 5′与 3′UTR
3. 全长mRNA设计模块:将CDS与UTR组合或直接生成完整序列
这种模块化结构使得模型既能在局部区域中进行更精细的优化,也能在全局范围内进行探索,提高了设计的灵活性。
三、编码区(CDS)生成模型:在同义密码子空间寻找更佳表达模式
在CDS设计中,研究者将蛋白序列视为输入,将mRNA CDS视为“目标语言”,采用编码器-解码器结构:编码器理解蛋白质序列的逻辑与结构特征;解码器在同义密码子空间中为其生成优化后的CDS。这一建模方式天然具备“保持氨基酸不变而探索最优密码子组合”的特性。
1. 生成 CDS 的特性表现更均衡
模型生成的 CDS 在多个指标上呈现更优表现:密码子适应指数提升;GC含量提高;稀有密码子比例显著降低;含量下降,有利于稳定性;RNA结构的最低自由能(MFE)落在天然哺乳动物CDS的合理范围;不良密码子对、滑移位点显著减少。可见,模型不仅学习了单一规则,而是综合性地理解了与表达相关的多层因素。
2. 实验验证显示表达能力明显提高
研究者使用Fluc2P(带促进降解突变的荧光素酶变体)进行实验,生成序列的表达水平相较多种基准提升明显,在某些实验中提升幅度可达数倍以上;同时mRNA稳定性也得到增强。
这些结果说明生成式方法能够有效捕捉提升表达的关键序列规律。
四、UTR生成模型:在调控区域中探索新的功能序列
UTR在mRNA生命周期中起着重要调控作用,其中5′UTR 影响核糖体加载与翻译起始,3′UTR涉及稳定性与调控因子结合。GEMORNA-UTR采用仅解码器结构,使模型能够从头生成UTR序列,再通过微调让模型学习特定目标属性。
1. 生成的5′UTR具有更好的预测表达潜力
通过对MRL(平均核糖体负载)和MFE等指标进行预测评估,生成的UTR在不同数据集上均表现出更优趋势。值得注意的是,生成的UTR与已有天然序列相似度较低,表明模型能够探索传统方法难以触及的序列区域,具有一定创新性。
2. 5′UTR与3′UTR之间存在显著“组合效应”
在Fluc2P和CD19 CAR两个CDS背景下,研究者测试了不同5′UTR与3′UTR的组合,发现:5′UTR对整体表达影响最大;在高表达背景下,3′UTR的差异也会被放大; 不同CDS搭配相同的UTR可能呈现完全不同表现(靶标依赖性)。这说明UTR的调控行为较为复杂,模型能够在组合空间中提供更多可能性。
五、全长mRNA设计:分步组合与直接生成的双路径探索
在获得CDS与UTR的生成能力后,研究者进一步探讨如何生成全长mRNA,并尝试了两种策略。
1. 分步组合策略
先分别优化CDS与UTR,再通过组合寻找最优搭配。在多个蛋白类型中,这种组合方式稳定提升表达水平,尤其在报告基因与疫苗抗原则中表现突出。例如:在报告基因Fluc2P中,组合型全长序列相较基准提升更显著,且表达更持久。在COVID-19刺突蛋白疫苗抗原中,组合后的全长mRNA在体内可诱导更高、持续性更好的抗体水平。
2. 直接生成全长mRNA
模型也可以通过一次生成完整序列,再从生成结果中筛选。在NanoLuc与EPO等蛋白的测试中,直接生成的多数序列均表现优于传统强基准。
3. 多种蛋白类型均取得良好结果
模型在以下不同类型蛋白上均显示出一致提升:报告基因(Fluc2P、NanoLuc);疫苗抗原(刺突蛋白);治疗蛋白(EPO);CAR-T相关蛋白(CD19 CAR)。说明生成模型学习到的规律具有较宽泛适用性。
六、环状RNA(circRNA)设计:在新的拓扑结构中延伸生成式能力
环状RNA具有更高稳定性与更持久的表达能力,但由于其拓扑结构简化,其翻译起始依赖IRES序列,使设计空间受到限制。研究者尝试将生成式模型用于circRNA的CDS设计,并结合IRES筛选。
1. 模型生成的circRNA在表达水平上显著提升
在报告基因与治疗蛋白的测试中,生成的circRNA在表达总量与表达时长两个指标上均表现更好:在EPO表达模型中,生成的circRNA能实现远超基准的表达量,并在体内维持更长时间。在多项实验中,表达持续时间显著延长,整体呈现更高效的翻译行为。
2. 在CAR-T相关应用中呈现更强功能表现
将模型生成的CD19 CAR circRNA用于人原代T细胞,结果显示其表达水平与持续性均优于传统优化序列,在体外肿瘤细胞清除实验中表现更强的细胞毒性。这意味着生成模型不仅能提升表达本身,也可能在治疗效果层面产生积极影响。
七、从方法到平台:生成式AI在mRNA设计中的意义
这一研究所构建的生成模型体系展示了生成式AI在高维生物序列空间中的潜力。整体来看,平台在以下方面具有一定方法学价值:
1. 以语言模型的方式解析生物序列特征:模型能够学习天然序列中的统计规律,包括密码子偏好、结构模式与功能相关的序列特征,使生成的序列倾向于落入“高效表达区域”。
2. 生成式推断提供更广的探索空间:相较传统基于规则或局部搜索的方法,生成式AI能够跳出已有序列集合,探索此前较难访问的序列区域,从而挖掘新的设计可能性。
3. 模块化生成策略更加灵活:将CDS、UTR与全长mRNA分层建模,使研究者能够对不同区域分别优化,同时也能进行整体生成,满足不同的设计需求。
4. 多体系验证增强模型可靠性:无论在细胞系还是体内模型中,生成的序列整体表现稳定,使得该框架具备进一步拓展的潜力。
八、总结
生成式AI在mRNA序列设计中的应用,提供了一个从整体角度审视序列特征的新方法。通过针对CDS与UTR分别构建语言模型,再在全长水平进行整合,GEMORNA展示了在多种蛋白类型、不同模型中的广泛适用性。在环状RNA等新的结构形式中,生成模型也表现出令人关注的能力,表明其学习到的规律可能具有更深层的普适意义。总体而言,这一平台体现了生成式人工智能在复杂生物序列设计任务中的潜在价值,为mRNA疗法开发提供了新的技术路径,也为未来更多生物序列设计任务带来了新的可能性。
参考文献
1. Zhang H, Liu H, Xu Y, et al. Deep generative models design mRNA sequences with enhanced translational capacity and stability. Science. [2025-11-06]. doi: 10.1126/science.adr8470.
2. Liu Z, Dong Y. AI-powered design accelerates the development of mRNA therapeutics. Nat Chem Biol. [2025-11-14]. doi: 10.1038/s41589-025-02074-0.