投稿问答最小化  关闭

万维书刊APP下载

机器学习和生物大数据交叉融合助力智能育种 | Genome Biology

2022/4/7 9:06:44  阅读:236 发布者:chichi77

2022315日,玉米团队在Genome Biology发表了题为“Target-Oriented Prioritization: targeted selection strategy by integrating organismal and molecular traits through predictive analytics in breeding”的研究论文。该研究基于一个结合遗传研究和育种应用设计的包含5820份杂交种的玉米非完全双列杂交群体,开发了一套基于理想目标材料识别的机器学习算法:目标导向的优选技术(TOP, target-oriented prioritization)。该算法可整合组学数据实现多个性状的协同选择,在保证育种目标整体一致的基础上,特定性状实现更优,为作物智能设计育种提供了技术支撑。

作物育种技术正面临新的转型升级

根据联合国粮食及农业组织的预测,2050年全球人口将达到91亿,届时,粮食供应将面临前所未有的压力。为解决未来粮食危机,缓解供应压力,目前的育种技术亟需转型升级。利用基因编辑与合成生物学技术,借助生物和环境大数据与人工智能技术,快速聚合有利等位基因,实现作物新品种的定向智能培育被认为是未来育种技术发展方向。

多性状协同改良是目前制约育种效率的关键

作物育种中,育种家通常期待同时改良多个性状,但不同性状往往存在连锁累赘,如高产品种往往不抗病,适宜机械化收获的品种籽粒脱水快,但产量会受影响。同时选择两个或多个性状通常比选择单个性状育种更加困难。实际育种中,多性状选择主要有三种方法:i)逐项选择法,在一个育种周期中只对一个性状进行选择;ii)独立淘汰水平法,在一个育种周期同时对多个性状进行选择,对满足条件的材料取交集;iii)指数选择法,根据性状的经济重要性或期待改进的幅度对其进行加权的选择方法。尽管指数选择法比逐项选择法和独立淘汰水平法更有效,但性状重要性的赋值依赖育种家经验,且必须为每个特定的种群和育种目标建立理想的选择指数,尽管这种思路很好,但操作起来非常困难,难以推广。

学科交叉融合,提供新的解决方案

机器学习致力于研究计算机如何模拟人类的学习行为,通过对数据的不断学习,来获取新的知识或技能。机器学习已被广泛地应用到社会科学和自然科学的很多领域,如:电子商务、信用卡欺诈检测、人脸识别、语音识别、自动驾驶等。DNA分子画像技术(DNA molecular photofitting)是近年来在人类医学、遗传学和罪案调查领域热门应用的机器学习技术。它通过全基因组DNA序列信息,建立机器学习模型,可整体性预测一个人的物理外观特征。目前,DNA画像技术可以精确识别人类种族、肤色、颜色、身高和年龄,对人面部特征的识别也能达到较高水平。在该技术的帮助下,警方曾成功缉获逃逸多年,无犯罪前科且无数据库记录的犯罪嫌疑人。

受此启发,文章第一作者杨文宇博士开发了一套适用农作物的DNA画像技术,以特定品种(商业品种或区试对照材料)为目标,在育种资源中,通过基因组信息对材料进行“表型画像”,并搜索和“目标画像”整体性最相似的材料。该方法被命名为,目标导向的优选技术(TOP, target-oriented prioritization)。该研究利用4套独立的不同数据集,对TOP选择效果进行测试,包括5820F1的玉米杂交种,368个玉米自交系,282个玉米自交系和210个水稻自交系(图1)。研究结果发现,TOP方法在多个物种,多个数据中具有广泛的适用性,能有效平衡多个性状间的复杂相关性,实现与特定目标品种整体相似的前提下,筛选出特定性状更优的候选材料。如果进一步加入其它组学大数据,TOP的选择精度能进一步得到大幅提升。以我国生产上大面积推广的玉米品种“郑单958”为目标材料,从34,188份理论可以组配的杂交组合中选出86个(中选率0.25%),进一步对这些中选的杂交组合进行田间试验验证,结果显示,10个杂交组合在整体性状和郑单958相似的基础上,实现了0.75-8.66%的增产。为后续进行品种精准改良提供了优良材料资源,与常规杂交育种相比,大大降低了工作量。

1 玉米基因组育种选择TOP算法流程

玉米智能育种的前世今生

当前,中国作物育种工作仍以科研单位和小型公司为主,主要遵循传统育种思路,大多还没有建立起系统的数据产生、收集和分析平台。建立基于机器学习的基因组设计育种方法,需要很强的计算机科学和统计学的背景,同时需要拥有持续产生大量基因组等组学数据和田间试验数据的能力,缺一不可。

杨文宇博士是华中农业大学理学院青年教师,自2013年获得计算数学博士学位后入职华中农大后就和严建兵教授团队开展合作研究,利用团队穷十年之功构建的CUBIC群体和各种数据,结合自身对生物数据的理解和数学专业优势,努力学习遗传学和生物育种学的知识,坚持参加严建兵课题组的组会和团队讨论,通过学科交叉和融合,做出一系列研究成果:1)开发了一种基于隐马可夫模型的血缘一致性(identity-by-descent, IBD)推断方法,可精准估计CUBIC群体24个亲本的遗传重组事件,精确度达到95%,为后续关联分析和基因挖掘奠定了基础,相应结果以共同一作发表在Genome BiologyLiu et al, Genome Biology, 2020);2)参与CUBIC衍生的NCII杂交群体的杂种优势预测算法开发(Xiao et al, Genome Biology, 2021);3)独立开发了一套基于理想目标材料识别的机器学习算法TOPTarget-oriented prioritization),为农作物基因组智能育种提供有力技术支撑(Yang et al, Genome Biology, 2022)。

利用玉米CUBIC群体已在Genome Biology连续发表三篇系列论文,从农艺性状遗传解析,到杂种优势机理解析,再到智能设计育种。

华中农业大学理学院杨文宇博士为论文第一作者。作物遗传改良国家重点实验室和湖北洪山实验室严建兵教授、肖英杰教授为共同通讯作者。我校郭婷婷教授、博士后罗靓赟,美国农业部Marilyn Warburton博士,北京农林科学院赵久然研究员和张如养副研究员也参与了该研究。该研究得到了国家自然科学基金委优青项目,湖北省科技厅重大项目和作物遗传改良国家重点实验室开放课题等项目的资助。

Genome Biology

doi:10.1186/s13059-022-02650-w

如有侵权,请联系本站删除!

  • 万维QQ投稿交流群    招募志愿者

    版权所有 Copyright@2009-2015豫ICP证合字09037080号

     纯自助论文投稿平台    E-mail:eshukan@163.com