admin 管理员组

文章数量: 887021

Nature

绘制驱动疾病进展的基因调控网络,可以筛选出针对疾病的核心调控基因,从而为疾病治疗提供更有效的方法。

2023年5月31日,题为Transfer learning enables predictions in network biology的文章发表于《Nature》。

摘要

构建基因网络需要利用大量的转录组数据来学习基因之间的相互关系,这限制了基因网络在数据有限的情形下的应用,包括罕见病和难以获取的组织的疾病等。近来,迁移学习(transfer learning)为自然语言理解、计算机视觉等领域带来了彻底的变革。迁移学习通过有限的任务特异性数据对已在大规模常规数据集上预训练的深度学习模型进行微调,从而使其能够应用于大量的下游任务。在此,我们开发了一个基于注意力机制的上下文感知的深度学习模型Geneformer。Geneformer利用大约3000万个单个细胞转录组构成的大规模语料库进行了预训练,以在有限数据情形下实现下游网络生物学任务的预测。在预训练过程中,Geneformer 对网络动态学获得了基本的理解,可通过完全自监督的方式在模型的注意力权重中编码网络层次结构。在向一个涉及染色质和网络动态的多样的下游任务进行微调时,在有限的任务特异性数据下证明 Geneformer持续提高了预测准确度。在有限患者数据的疾病建模的应用中,Geneformer鉴定了心肌病的候选治疗靶点。总体而言,Geneformer代表了一个预训练的深度学习模型,可通过微调适应广泛的下游应用,进一步促进对关键网络调节因子和候选治疗靶点的发现。

图1 Geneformer架构与迁移学习策略 a 描述了迁移学习的流程图;b展示了3000万转录组数据的组织分布;c展示了预训练的Geneformer架构。

讨论

研究人员开发了一种基于深度学习的、对上下文敏感的模型—Geneformer,该模型通过大规模转录组数据的预训练,可以在数据有限的场景中进行预测。在预训练过程中通过观察大量的细胞状态,Geneformer对网络动力学有了基本的理解,并以完全自监督的方式在模型的注意力权重中编码网络层次结构。Geneformer通过对上下文敏感的计算模拟删除方法预测剂量敏感疾病基因的能力,为遗传变异的解释提供了宝贵的资产,包括对驱动复杂性状的GWAS靶点进行优先排序,并预测它们可能影响的特定组织。在胎儿心肌细胞中验证剂量敏感基因候选者TEAD4的实验结果支持了Geneformer在推动人类发育生物学深入研究方面具有重要的作用。

图2 使用有限的数据,Geneformer提高了基因剂量敏感性的预测能力。

在使用有限的患者样本进行心肌病疾病模型建模时,Geneformer预测了候选治疗靶点,并在iPSC疾病模型中进行实验性验证,结果发现CRISPR介导的iPSC衍生的心脏微组织中候选TEAD4的敲除导致其产生收缩应力(单位面积的力)的能力显著降低(如图2 e所示)。

因此,使用有限数据进行计算模拟治疗分析可能有助于发现以往受到数据限制而受阻的罕见疾病或影响临床难以获取组织的疾病的治疗方法。此外,我们发现,使用更大、更多样化的语料库进行预训练可以持续提高Geneformer的预测能力。此外,在预训练过程中接触数百个实验数据集似乎也有助于提高易受批次效应和个体差异影响的单细胞分析的稳定性。这些发现表明,随着公开可用的转录组数据量不断扩大,未来基于更大规模语料库的预训练模型可能会为实现更多难以探索的研究提供有意义的预测。

阅读原文内容:

往期精品(点击图片直达文字对应教程)

机器学习

本文标签: Nature