文献解析|Cell-水稻泛基因组揭示“隐藏”的基因组变异

如题所述

第1个回答  2022-07-01
泛基因组有助于充分挖掘目标物种的遗传变异资源。2020年6月,中国科学院遗传与发育生物学研究所报道了大豆泛基因组和图形基因组。2021年5月28日,四川农业大学的研究团队又在期刊Cell在线发表了首个水稻泛基因组和图形基因组,并通过泛基因组分析揭示了水稻中“隐藏”的基因组变异。

一、研究背景

结构变异(SVs)和基因拷贝数变异(gCNVs)对于作物进化、驯化和改良具有重要贡献。水稻作为世界上最重要的粮食作物之一,也是植物研究中单子叶植物和农作物的主要模式物种。虽然目前已报道一些基于短读长测序的SVs研究,然而关于水稻中SVs和gCNVs的变异程度以及它们对水稻环境适应性和驯化的生物学影响还不甚清晰。

二、材料方法

选取33份(32份亚洲栽培稻和1份非洲栽培稻)具有高度代表性的水稻材料,利用平均测序深度为60X的PacBio三代长读长测序结合Bionano等技术组装了31个高质量的水稻基因组,并结合已报道的日本晴和R498的基因组,构建了水稻泛基因组和图形基因组。

三、研究结果

1、31份遗传多样性栽培稻基因组的高质量组装

组装的31份水稻的高质量基因组中,亚洲稻基因组大小平均为385.8 Mbp(371.7–392.9 Mbp),非洲稻CG14基因组大小为344.7 Mbp。平均Contig N50达到12.88 Mbp,平均99.3%的Contig锚定在染色体上。平均的BUSCO完整性为98.5%(97.4%-98.9%)。完整性及准确性进一步被二代测序数据以及Bionano光学图谱验证。

2、基因组注释和泛基因组构建

组装基因组中平均鉴定出40,082个蛋白质编码基因,进一步通过BUSCO评估验证了基因注释的高度完整性。以日本晴基因为基础采用迭代策略构建泛基因组,获得了包含66,636个蛋白质编码基因的栽培稻泛基因组,其中20,374个基因为核心基因,46,262个为可变基因(其中14,609个为单个基因组的私有基因)。组装基因组中平均鉴定出468,144个转座元件(TEs),每个组装基因组中总TEs的平均长度为202.8 Mbp(165.7-211.8 Mbp),平均占组装序列总长度的52.7%。

3、SVs检测和SVs热点区域分析

将32个基因组序列与日本晴基因组序列进行比较检测SVs,获得了总共有171,072个影响1.23 Gbp基因组序列的非冗余SVs,包括164,009个存在/缺失变异(PAVs),6,109个易位和954个倒位。与之前已报道的SVs进行比较,表明高质量组装基因组序列比较才能鉴定出绝大多数的SVs。SVs在染色体上呈不均匀分布,有140个SVs热点区域。在染色体11上一个SV热点区域与12个稻瘟病抗性数量性状基因座(QTLs)重叠或邻接。这些发现与先前报道同时表明位于SV热点区域内的变异可能经历更强的环境选择。

4、代表亚洲栽培稻衍生状态的SVs的推断和表征

使用非洲栽培稻CG14作为外群判断亚洲栽培稻中给定的SVs代表衍生状态(dSVs)还是祖先状态。在亚洲栽培稻中总共推断出130,862个dSVs,包括125,889个PAVs、627个倒位和4,346个易位。大多数dSVs存在于一个种质或仅有少数种质中。并通过大量的数据说明了大规模的水稻dSVs推断和该研究中获得的dSVs基因目录是如何支持水稻进化和驯化的研究。

5、SV具有广泛的基因表达谱

大多数dSVs与非编码区重叠。对R527的29种不同样本类型的RNA测序分析发现胁迫处理后dSVs基因表达变化大于3倍的比例明显高于非dSVs基因,表明dSVs基因通常对环境压力更敏感。进一步对33份材料进行根和茎的RNA-seq分析,发现15.6%(3,340)的SVs(存在于> 3份但< 29份材料中)与一个基因区域有重叠,这与它们在根和/或芽中相应基因的表达改变有关。这些分析共同表明在水稻进化和驯化过程中SVs具有广泛的基因表达谱。

6、SV在水稻环境适应和驯化中的作用

将3,010份亚洲栽培稻和13份野生稻的短读长测序数据比对到日本晴基因组以推断给定材料中SV是否存在。该方法检测到20,965个dSVs的分布,其中25.7%是固定dSVs,表明在该研究中获得的dSVs中可能存在更多的固定dSVs。解析这些固定dSVs将有助于研究水稻进化和驯化过程中潜在的环境适应和/或人工选择。例如,粳稻材料中一个66.6 kbp的缺失和cA、cB和籼稻材料中的一个43.3 kbp的缺失均包含已知的抗稻瘟病负调控基因OsWAK112d的完整序列。显然,这两个独立的缺失都通过增强稻瘟病抗性而有助于水稻环境适应。

7、gCNV普遍存在并与农艺性状的变异有关

水稻泛基因组中25,549个(38.34%)蛋白质编码基因被推断为gCNVs,包括14,782个基因PAVs。这些gCNVs包括先前报道的GL7和Sc的两个拷贝以及320个未报道的功能性研究基因,例如稻瘟病抗性基因(Pid4)和耐旱基因(OsDT11)。296和361个基因的表达水平分别与茎和根中的CNV相关。此外,gCNVs可以导致异位表达模式。总体而言,这个gCNVs目录有助于研究水稻表型变异背后潜在的隐藏基因组变异。

8、多种机制驱动水稻SV的形成

这些SVs主要的形成机制是转座因子插入(TEI),其次是非同源末端连接(NHEJ)。进一步分析表明2,741个dSVs是通过叉停滞和模板转换/微同源性介导的断裂诱导复制(FoSTeS/MMBIR)机制形成的。由TEI形成的水稻SVs中55%和38.3%分别来自DNA TEs和长末端串联重复(LTRs)。总体而言,研究表明TEs,尤其是LTRs,能够以某种方式频繁地为NHEJ产生DNA断裂,或者通过提供同源序列来促进非等位同源重组(NAHR)。

9、水稻图形基因组的构建及利用

利用variation graph工具包,以日本晴基因组作为基础线性基因组,基于彼此同源性<50%的PAV序列构建水稻图形基因组。总共6,542个PAVs被整合到图形基因组中。将水稻3K-RG数据集中选择的674份覆盖所有亚群、测序深度> 10X的水稻材料比对到图形基因组,证明了水稻图形基因组的实用性。通过对这674份材料进行SNP-GWAS和基于图形基因组的SV-GWAS分析,在6号染色体上发现了一个基因位点(含两个SV)与叶片早衰显著相关,但该位点未能根据SNP数据鉴定出来。

10、开发了便于使用这些基因组资源的网络工具

为了便于使用这些基因组资源,开发了一个网络工具(http://www.RiceRC.com)。该网络工具集成了基因组浏览器和BLAST功能,允许研究人员使用所有高质量的组装序列开展各种分析,且包含一个全面的SNP/Indels目录,包括以前由于SNP检测时因高度重复或非日本晴序列而被过滤掉(或无法检测到)的SNP/Indels,以及这些SNP/Indels的祖先等位基因数据,这将有益于作物研究和育种应用。

参考文献:

1. Qin Peng, Lu Hongwei, DuHuilong et al. Pan-genome analysis of 33 genetically diverse rice accessions reveals hidden genomic variations.[J]. Cell, 2021.