AI机器学习 | 李彩课题组开发基于深度学习构建基因组突变率图谱的通用方法
2022/12/28 9:42:41 阅读:231 发布者:
生物体的基因组序列在传代过程中不可避免会发生突变,基因组突变是遗传多样性的基础,也是生物演化的重要动力之一。基因组突变率是许多遗传和演化分析的重要参数。例如,突变率可以用于估算某个基因组区域的预期突变数目,通过比较突变数目的预期值和群体里的观测值可估计该区域受到的选择压力强度从而发现重要的功能区域或变异位点。
虽然三十多年前就已发现基因组不同区域的突变率差异很大,然而构建一个基因组的高精度、高分辨率的突变率图谱非常困难,现有方法只能得到基因组突变率的粗糙估计,且难以应用到一般物种中,因此是遗传和分子演化领域中有待解决的重要问题。
该问题的困难之一是,生物个体每一代产生的新生突变(de novo mutations)非常少,在基因组分布极其稀疏。例如,人类个体中每一代只有大约50个新生的点突变,而检测新生突变需要对父母和子代进行全基因组测序,因此获取大量的新生突变作为模型训练数据的成本非常高。另一个困难是,已知有许多因素与突变率相关且关系复杂,如邻近序列、复制时间、DNA甲基化、重组率等,如何对众多因素进行建模来预测突变率也是一个重大挑战。对于第一点,近年的研究表明,测序群体中等位基因频率很低的罕见变异(rare variants)因为出现时间较短,可作为新生突变的近似,一定程度上缓解了建模时训练数据稀缺的问题。但对于第二点,现有方法一般是简单的线性或广义线性模型,只考虑少量邻近序列的信息(不超过10个碱基),通常还需要大量的突变数据及功能基因组特征来训练模型,这些问题限制了模型的预测性能和跨物种应用。
近年来,深度学习方法在很多复杂预测类问题上表现突出,在基因组学中的应用也日益增多。由于基因组序列本身对突变率有着重要影响,也与许多功能基因组特征密切相关,作者猜测通过深度神经网络模型可以学习大范围的邻近序列来获得与突变率相关的信息,进而得到更好的突变率估计。基于此,来自中山大学生命科学学院的李彩课题组近日在Nature Machine Intelligence杂志上发表了题为A generalizable deep learning framework for inferring fine-scale germline mutation rate maps的研究,该研究提出了一种基于深度学习构建基因组高精度突变率图谱的通用方法—MuRaL (Mutation Rate Learner)。作者利用MuRaL构建了人类及多个物种的高质量突变率图谱,显示出该方法的广泛适用性。
MuRaL以相对较少的点突变数据及大范围的上下游序列来训练模型,基于训练好的模型可预测全基因组每个碱基的点突变概率。MuRaL模型框架由“local”和“expanded”两个模块构成(图1),分别用于学习所关注位点的近端和远端侧翼序列的突变相关信息。其中,近端序列约为上下游10 bp,而远端序列则包括上下游1 Kb或更大的长度。MuRaL通过不同的神经网络模块分别对这两方面信息进行学习,然后汇总两个模块的输出得到最终的预测结果。
图1. MuRaL模型的架构
作者利用人类遗传变异数据库gnomAD中大量的低频罕见变异(作为新生突变的近似)进行详细的模型评估。结果表明,相对于已有模型,MuRaL在不同尺度上都有更好的预测准确度,而且对训练数据的要求低很多。以人类基因组为例,之前表现最好的Carlson等人的模型需要几千万的罕见变异和众多的功能组学特征进行训练。MuRaL模型用于训练的突变数据不到Carlson模型的二十分之一,且不依赖任何功能组学数据,但所得的预测结果比Carlson模型更好。不仅如此,作者发现,基于100个个体中的罕见变异进行训练与1000个个体中的罕见变异训练的模型相差不大(图2),这意味着在测序个体数目不多的情况也可以用MuRaL来构建基因组的突变率图谱。
图2. 基于100个人和1000个人的罕见变异构建的MuRaL模型的预测结果差异不大
因为MuRaL对训练数据要求低,这为构建很多物种的突变率图谱打开了一扇门。作者利用MuRaL获得了恒河猴、果蝇和拟南芥这三个代表性物种的全基因组突变率图谱,评估结果表明MuRa在这些物种中的预测性能都相当不错。MuRaL还能利用预训练的模型进行迁移学习,高效快速地获得近源物种的突变率图谱。以恒河猴为例,因为恒河猴是人类的近源物种,作者利用训练好的人类MuRaL模型的参数作为初始参数,仅使用恒河猴从头预测模型训练数据的30%进行迁移学习模型的训练。结果表明,从头训练模型和迁移学习模型的预测性能表现相近,但迁移学习模型所需要的训练数据和计算资源要少很多。
图 3. 利用MuRaL构建拟南芥的基因组突变率图谱
MuRaL预测的高精度突变率图谱可应用于许多下游分析。作为例子,作者基于人类MuRaL模型的预测结果,对人类编码基因及其上下游3 Kb区域的突变率模式进行聚类分析,把所有基因分为三大类(图4)。很有意思的是,其中一类基因在基因区及上下游都呈现出了明显更高的突变率,功能富集分析表明这类高突变率的基因很多与发育相关,说明许多发育相关基因具有更高的突变负担。这是一个出乎意料的发现,对理解疾病发生及生物演化可能有重要意义。
图 4. 根据MuRaL预测的突变率对人类编码基因进行聚类
总而言之,该研究开发了一种基于深度学习预测突变率的方法,该方法性能优异且具有高适用性,可用于构建许多物种的基因组突变率图谱,并将促进与突变相关的研究,具有广阔的应用前景。
中山大学生命科学学院的博士生方亦圆和邓书益为该研究的共同一作,李彩教授为通讯作者。该研究得到中山大学有害生物控制与资源利用国家重点实验室、国家自然科学基金委员会、广东省及广州市的经费支持。
论文链接
https://www.nature.com/articles/s42256-022-00574-5
来源:中山大学生命科学学院
转自:“威斯腾生命科学研究院”微信公众号
如有侵权,请联系本站删除!