Nature:黄三文团队两项研究探索泛基因组赋能育种
泛基因组(Pan-genome)是一个物种内所有基因组信息的总和。相比传统的单一参考基因组,泛基因组包括了更多的遗传多样性,可以有效降低参考基因组偏差对遗传变异检测的影响。目前水稻、玉米、小麦、大麦、大豆和番茄等作物均构建了泛基因组,并在功能基因研究、育种改良等领域都体现出重要价值。
但是,目前对泛基因组的遗传学分析,大多停留在单个参考基因组的分析框架内,因此,如何充分利用泛基因组的优势解决重要的生物学问题,促进植物遗传育种研究,仍然需要更多的创新探索。
2022年6月8日,Nature 杂志同时在线发表了中国农业科学院深圳农业基因组研究所(以下称“基因组所”)黄三文团队在植物基因组学领域的两项重要研究成果,为实现泛基因组在作物育种的应用,提供了新的解决方案。
研究一:野生与栽培马铃薯的基因组进化与多样性
为指导马铃薯产业的绿色革命,黄三文团队联合国内外优势单位发起了“优薯计划”,通过基因组学和合成生物学研究方法,用二倍体替代四倍体,并用杂交种子替代薯块,变革马铃薯的育种和繁殖方式。
该团队先后打破马铃薯自交不亲和(Nature Plant, 2018),解析了自交衰退的遗传基础(Nature Genetics, 2019),发现杂合马铃薯基因组中有害突变的嵌合分布模式(Nature Genetics, 2020),并培育了第一代高纯合度自交系材料(Cell,2021)。在此基础上,为了充分利用二倍体资源中的优异性状,加快杂交马铃薯育种,探究马铃薯无性繁殖方式对马铃薯基因组的影响及薯块形成的遗传演化机制,研究人员构建了高质量的二倍体马铃薯泛基因组图谱。
论文截图
研究人员分析了具有代表性的44份二倍体马铃薯种质的基因组,包括农家品种、野生种和两份不结薯的马铃薯姊妹类群材料(Section Etuberosum)(图1-1)。分析发现,马铃薯与近源物种番茄和Etuberosum 之间以及马铃薯类群内部,都存在广泛的不完全谱系分选和物种间杂交的现象,也说明了马铃薯类群的演化历史非常复杂。
图1-1 结薯种与不结薯种表型。左图为不结薯材料Etuberosum ,右图为结薯材料马铃薯。Etuberosum 和马铃薯都会产生地下分枝,Etuberosum 的地下分枝向上生长发育成新的植株;而马铃薯的匍匐茎向下生长,并且在匍匐茎顶端膨大形成薯块 | 参考文献[1]
以抗病基因(R基因)为例,由于R基因在基因组中串联分布,所以经常“误导”传统的基因结构注释流程,而产生错误的注释结果。研究人员基于高质量的基因组组装,开发出一套R基因注释流程,并发现马铃薯中R基因拷贝数明显比番茄和Etuberosum 更高。
与种子繁殖植物相比,无性繁殖的马铃薯更容易受到病原菌的侵染,这可能促使了马铃薯扩张R基因数量以应对这种侵染。类似地,研究人员发现无性繁殖的甘薯野生种基因组中,抗病基因的拷贝数相比于有性生殖的牵牛花数量显著扩增,也进一步印证了这一推测。
通过马铃薯、番茄和Etuberosum 的多组学比较分析,研究人员鉴定到一个可能在薯块发育过程中发挥关键作用的TCP转录因子,所在的基因命名为薯块身份基因Identity of Tuber 1 (IT1)。基因敲除实验证明,该基因在薯块发育的起始时期发挥关键作用。敲除该基因的突变体匍匐茎顶端转而发育成了侧枝,无法正常膨大形成薯块;IT1与结薯移动信号因子SP6A存在蛋白直接相互作用,不结薯种Etuberosum 虽然有IT1基因,却在SP6A上有突变,也导致最终薯块发育不成功(图1-2)。
图1-2 通过多组学比较分析鉴定马铃薯薯块身份基因IT1。a). 多组学手段鉴定到229个薯块发育相关候选基因。b). IT1基因附近的保守非编码序列。tepCNS: 番茄、Etuberosum 、马铃薯共有的保守非编码序列得分,pCNS: 马铃薯特有的保守非编码序列得分。c). IT1在不同材料、不同组织中的表达量热图。d). 野生型与 it1敲除突变型的表型。e). 野生型与it1突变型材料在薯块起始发育过程中的表型比较。f). 酵母双杂验证IT1与SP6A的互作。g).马铃薯与Etuberosum 中的SP6A蛋白结构域示意图 | 参考文献[1]
此外,研究人员还鉴定得到561,433个高质量的结构变异,并且首次构建了栽培和近缘野生马铃薯的大片段倒位图谱。其中,马铃薯3号染色体5.8 Mb的倒位事件,与控制块茎中类胡萝卜素积累的基因紧密连锁,且自交后代在该区域的基因重组率显著降低,这一现象为改良自交系,摆脱目标基因附近潜在的不良基因连锁,提高育种效率提供了重要思路(图1-3)。
图1-3 马铃薯倒位图谱。a). 野生与近缘野生马铃薯的倒位图谱。b). Hi-C验证3号染色体倒位准确性。c). 基于624份自交后代的重组率分布图,3号染色体倒位区域附近重组率显著降低 | 参考文献[1]
审稿人评价,该研究解析了马铃薯和姊妹类群之间的进化关系,并且对块茎进化提出见解,更重要的是发现了马铃薯类群基因中与农艺性状紧密关联的结构变异。这项研究展示了泛基因组学的力量,能为其他作物泛基因组研究提供参考方法,将成为被广泛引用的重要资源。瑞典斯德哥尔摩大学的Juanita Gutiérrez-Valencia 和Tanja Slotte在Nature同期专评指出:“组装数量如此之多的异交和高杂合马铃薯高质量基因组,是一项了不起的壮举(remarkable feat)。”“该研究大大扩展了马铃薯的基因组资源,且利用泛基因组鉴定的遗传变异无疑会推进其基础和应用研究。”“下一步,研究地方种和野生种如何适应来自不同生境的环境压力将有助于研究人员建立基因与性状之间的联系,并像其它主要作物那样指导马铃薯育种。本文提供的组学信息资源也将助力基因组学辅助育种。”
研究二:利用图泛基因组找回丢失的遗传力及促进番茄育种
在番茄研究中,该团队利用图泛基因组解决重要遗传学问题,找回“丢失的遗传力”,为解析生物复杂性状的遗传机制和番茄育种提供了新思路。
论文截图
“遗传力”是一个遗传学的概念,指的是某一性状受遗传控制的程度,数值越大说明受遗传控制程度越大。在数量遗传学领域有一个重要的问题称为“遗传力丢失”(Missing heritability),即通过遗传标记估计的遗传力,以及通过全基因组关联分析(GWAS)发现的所有相关基因所贡献的遗传力的总和都低于实际的遗传力。找回这些“丢失的遗传力”,将有助于理解复杂性状的遗传机制,为相关的育种工作提供理论支持。
传统二代短片段测序虽然可以对长度较小的变异(SNPs和InDels)进行鉴定,但对复杂结构变异(SVs)的检测能力较差,无法全面评估遗传变异对遗传力的具体影响。因此,尽可能准确地鉴定全部遗传标记是克服该问题的重要前提。
研究人员通过利用图泛基因组 (graph pangenome) 技术解决了该难题。图(graph)是数学和计算机科学中一种常见的数据结构。利用该数据结构整合泛基因组(pangenome),可以减少单一基因组带来的参考基因组偏差,提高遗传变异的检测能力。利用番茄的转录组及代谢组数据,研究人员从遗传标记的不完全连锁、等位基因异质性和位点异质性三个方面,找回了“丢失的遗传力”(图2-1)。
图2-1 番茄图泛基因组研究流程。a) 基因组数据;b) 图泛基因组;c) 表型数据;d) 不完全连锁;e) 等位基因异质性;f) 位点异质性。研究人员利用高准确率的三代测序技术组装了骨架基因组SL5.0和31份具有代表性的材料,鉴定出相关的遗传变异(SNPs, InDels和SVs),再整合已公布的结构变异和短片段测序检测的变异,最终构建了来自838个番茄基因组的图泛基因组并用于后续研究 | 参考文献[2]
研究分析表明,包括结构变异(SVs)、单核苷酸多态性(SNPs)和短序列插入或缺失(InDels)在内的遗传变异中,SVs是最主要的遗传力来源。针对SVs 的检测,利用单一参考基因组的检测能力有限,而仅与SVs完全连锁的SNPs/InDels比例较低,因此利用图泛基因组的遗传变异,可以解决标记不完全连锁的问题,将估计的遗传力提高24%,展现了图泛基因组在找回“丢失的遗传力”上的重要作用(图2-2)。
图2-2 遗传变异对遗传力的贡献。a). 线性与图泛基因组中不同遗传变异类型组合对遗传力的贡献。b). 图泛基因组不同变异类型对遗传力贡献的比例 | 参考文献[2]
进一步,该工作尝试利用图泛基因组的遗传变异提高全基因组关联分析(GWAS)的检测能力。研究人员发现,如果结合多位点模型,将有可能解决由遗传异质性导致的GWAS检测能力下降问题。遗传异质性是一种遗传学现象,指某一表型的改变可以由等位基因突变或不同位点基因突变引起。以基因表达为例,在基因上游同一调控区域的不同变异,都有可能导致基因表达的改变,又称等位基因异质性(allelic heterogeneity)。基于图泛基因组的结构变异,并结合多位点模型分析可以发现,1787个基因表达可能受到两个或者两个以上结构变异的调控,而单位点的混合线性模型只能鉴定出其中的538个基因表达的cis-eQTL。
不同的基因的突变也有可能产生相同的表型,该情况被称为位点异质性(locus heterogeneity)。研究人员借助共表达调控网络,首先找到最有可能影响复杂性状的基因模块,然后将对应模块内基因上下游的全部结构变异进行关联分析,从而解决了位点异质性带来的检测能力下降问题。以共有38种代谢物的类黄酮为例,研究人员发现了一个基因模块9个基因周围的16个结构变异, 可能参与调控其中31种类黄酮类代谢物,展现出比传统关联分析更强的检测能力(图2-3)。
图2-3 类黄酮代谢的遗传学分析。上图为不同遗传变异对遗传力的贡献。中间为代谢的关联分析结果。红色线为MLM模型的结果,也同时被LASSO模型检测到。青色的线为LASSO模型特异找的信号。底下的图为eQTL关联分析结果 | 参考文献[2]
最后,为了展示“找回的遗传力”在育种中的实际作用,研究人员以可溶性固形物(SSC)为例进行实验。SSC是影响番茄产量和糖度的重要代谢物,采用上述分析方法,该研究共鉴定出了2个潜在的与SSC含量高度相关的结构变异,可以用于未来的分子标记辅助选择。
另外,理论上当利用遗传标记估计的遗传力提高时,也可以提高基因组选择(GS)的效率。通过对影响番茄风味的33种代谢物进行分析发现,利用全部的结构变异作为分子标记对基因组选择的效果最佳。研究人员进一步精心选择出一个不超过2.1万的结构变异数据集发现,如果利用该数据集设计育种芯片,基因组选择的准确率可能超过此前利用全部单核苷酸多态性得到的准确率(图2-4)。因此,该研究为基于结构变异设计分子标记的途径提供了理论支撑。
图2-4 图泛基因组对育种的贡献。a). SSC的关联分析结果。b). 显著SVs对临近基因表达的影响。c). 利用SVs对高含量SSC个体进行分子标记辅助选择。d). 利用SNPs和SVs对代谢物进行基因组选择。e). 利用不同类型标记对33种风味相关代谢物的基因组选择分析 | 参考文献[2]
论文评审专家认为,“这项工作是对图泛基因组概念最全面的分析。” “图泛基因组将可能成为基因组分析和作物基因组育种的标准,在这个意义上,这篇论文是奠基性的(foundational)”。
致谢
参考文献
[1]https://www.nature.com/articles/s41586-022-04822-x
[2]https://www.nature.com/articles/s41586-022-04808-9
作者:周姚
编辑:靳小明
排版:尹宁流
题图来源:Pixabay
未来光锥加速器是果壳硬科技发起的早期科技创业加速器,为科学家创业提供从公司注册、知识产权,到融资需求、团队组建等不同阶段的方案建议。加速科技成果从实验室到市场的转化,加速一部分科学家迭代成为CEO。
果壳团队有着长达12年为科学家服务的经验,我们始终站在科学家的视角出谋划策,做科创者的好朋友。如果您正打算创办一家科技企业,无论是找钱、找人、找资源,还是找订单,都欢迎与未来光锥团队聊聊。您可发送bp或其他项目资料到wlgz@guokr.com,并留下联系方式,或添加果壳硬科技企业微信,私信沟通。
✦
✦
点击阅读原文即可查看第一篇论文