检测到您的浏览器版本过低,可能导致某些功能无法正常使用,建议升级您的浏览器,或使用推荐浏览器 Google Chrome EdgeFirefox X

首页科技前沿与新兴产业生物产业生物医药

人工智能指导的细胞类型特异性顺式调控元件设计

供稿人:徐星颖供稿时间:2024-11-20 14:33:26关键词:人工智能,顺式调控元件,基因

顺式调控元件(cis-regulatory elements, CREs)是控制基因表达的关键工具,其在细胞类型特异性基因表达中的作用具有重要意义。然而,自然存在的CREs受限于进化产生的序列,无法满足特定治疗或生物技术应用的需求。MIT和哈佛大学联合团队研究开发了一种整合深度学习模型、计算优化和大规模平行报告基因实验的新型平台,设计并验证了具有高细胞类型特异性的合成CREssynthetic CREs)。研究结果表明,这些合成CREs比自然序列在驱动特定细胞类型基因表达方面表现更优,为精准基因调控和基因治疗带来了全新可能性。

一、顺式调控元件与基因调控

顺式调控元件(CREs)是非编码DNA序列,通过调控转录因子(TFs)的结合位点来影响基因表达,是组织特异性、发育过程和应激反应的重要调控机制。尽管人类基因组内已经鉴定出数百万潜在的CREs,但进化所产生的自然序列仅覆盖了可能序列空间的一小部分。科学家估算,200个碱基对的DNA序列理论上有2.58×10120种可能组合,远超自然进化所能探索的范围。

传统的CREs设计依赖于自然序列的筛选,这一方法存在以下挑战:

  • 自然序列无法满足特定生物技术或医疗需求,例如精准的细胞类型特异性。
  • 自然调控元件的活性和语法尚未被完全解析,限制了其在临床应用中的优化。
  • 当前基于染色质开放性和组蛋白标记的预测方法具有局限性,难以精准预测CRE的功能。

近年来,深度学习技术的进步为CREs设计提供了新的可能性。结合高通量实验技术,研究人员不仅可以解析CRE调控语法,还可以通过人工智能生成符合特定目标的合成序列,从而填补自然序列在精准基因调控中的不足。

二、基于深度学习和实验验证的CRE设计框架

1.深度学习模型开发

研究团队开发了名为“Malinois”的深度卷积神经网络(CNN)模型,旨在预测DNA序列在特定细胞类型中的CRE活性。模型的训练数据来自776,474DNA片段的功能测量结果,这些数据通过大规模平行报告基因实验(MPRA)获得,涵盖了三种细胞类型:K562(红细胞前体)、HepG2(肝细胞)、SK-N-SH(神经母细胞瘤细胞)。模型通过贝叶斯优化调整参数,最终实现了对序列活性的高精度预测。

2.CODA平台:合成CRE设计系统

CODAComputational Optimization of DNA Activity)平台是一个生成具有特定功能CRE的创新工具。其核心功能包括:

  • 目标优化基于深度学习模型预测序列的活性并优化目标函数。
  • 序列更新:通过模拟退火、进化算法和梯度优化等方法不断迭代生成新的序列。
  • 功能验证:实验验证生成序列的特定活性。

3.实验验证

研究团队通过实验测试了77,157个天然和合成序列库,以确定机器引导的序列设计是否能够可靠地生成具有所需活性的生物功能元素。该文库包括51,000个合成序列、24,000个天然序列和2,157个实验对照。这些序列在体外使用MPRA进行了功能测试,并在斑马鱼和小鼠模型中进行了体内验证。

三、合成CREs在活性和特异性上的卓越表现

1. 高精度的预测模型

Malinois模型能够精准预测CRE活性,在三种细胞类型中的预测与实验证据高度相关。此外,该模型在预测细胞类型特异性方面优于传统标记方法,如基于染色质可及性(DHSs)或组蛋白H3K27ac的预测模型。

2. 合成CREs的功能优势

实验结果表明,合成CREs在目标细胞类型中表现出更高的特异性和活性。例如:在K562细胞中,合成CREs的活性是自然CREs的两倍以上,同时显著降低了非目标细胞中的活性。在HepG2SK-N-SH细胞中,合成CREs的目标表达强度也远高于自然序列。

3. 引入多样性约束的设计

通过引入序列多样性约束,CODA生成了更加多样化的CREs。这些序列在目标特异性和活性上表现接近或优于标准设计,同时具备更丰富的调控语法。这一结果显示,优化CRE的语法组合是提高其功能的关键。

4. 体内验证的跨物种适用性

研究团队在斑马鱼和小鼠模型中验证了合成CREs的组织特异性。例如:针对HepG2设计的CRE在斑马鱼肝脏中表现出一致的表达模式。针对SK-N-SH设计的CRE在小鼠皮层的神经元中显示出特异性表达。这些结果表明,合成CREs不仅在体外具有特异性,在复杂的生物体内环境中同样表现出预期的功能。

四、人工智能驱动的基因调控革命

1.调控语法的解析与应用

研究表明,合成CREs能够通过精准设计激活和抑制因子的组合,优化目标细胞的特异性表达。这种能力为解析和应用复杂的调控语法提供了新工具,有助于进一步理解转录因子相互作用和高阶调控机制。

2.跨物种通用性与临床潜力

在多种模式生物中的成功验证表明,合成CREs具有广泛的适用性。其在基因治疗、转基因技术以及疾病模型构建中的潜力值得进一步探索。例如,可用于开发针对特定疾病的基因调控工具,甚至通过设计药物响应性元件实现精准医疗。

3.技术优化方向

未来的研究可扩展到更多临床相关的细胞类型,如免疫细胞或肿瘤细胞。此外,结合更先进的DNA建模技术和实验验证方法,CODA平台有望进一步提高CRE设计的效率和可靠性。

参考文献:

Gosai SJ, Castro RI, Fuentes N, et al. Machine-guided design of cell-type-targeting cis-regulatory elements. Nature. 2024 Oct;634(8036):1211-1220. doi: 10.1038/s41586-024-08070-z. Epub 2024 Oct 23. PMID: 39443793; PMCID: PMC11525185.