矫正基因结构注释 - 做有良心的基因家族分析

如题所述

第1个回答  2022-06-07

半个月前,我推了一个《任何人都能掌握-基因家族分析》的腾讯课程(原本事实是开给课题组)。在热身课程(完全免费)中,将我个人对基因家族分析的认知和其意义均做了说明,感兴趣的可见 https://ke.qq.com/course/338062?tuin=72ed3eb
其中涉及到一点,即是,基因家族分析中一个常常被忽略甚至忽视的,对科研可能有所贡献的步骤(可能很多培训公司并不会涉及),那就是 矫正基因结构注释

基因组,尤其是植物基因组,从测序,到组装,到注释,每一个都不简单。甚至存在一种说法, 一篇基因组文章,一个组装算法 。而事实上,注释也是类似的。即使是拟南芥或者水稻这两个模式生物,都不能保证所有基因的结构都被注释出来。更何况刚发表的基因组?
在基因家族分析讲演中,有这么一个图

在半个月前的讲演中,其实也已经讲过了,用在线网页工具softberry就可以了,以上图的 Aco005453.1为例,基于motif pattern和domain info,可以明显地看出来,其缺少的是5端,GRAS结构域也被截断了( 注意,这个在几乎所有物种的基因组结构注释文件都会出现,因为软件永远不可能保证绝对的准确,至少目前这个事情上是的 ,而菠萝基因组已经做得很优秀了。)

1.首先,获得这个基因的位置信息
使用TBtools的gff3 gene info工具

恩。。。我又试了几个基因,基本无解。或者是正好基因与上下游有overlap,或者是基因结构预测后并没有太大的改善。不过似乎也OK,毕竟我们大概可以知道其中两个基因并不真实。
如果要证明他们是否真实, 可能还是需要RNAseq数据辅助,或者事实上,需要race实验 。得到序列之后,再按照上述操作,用TBtools重构gff3即可。

嗯,意料之外,情理之中。
据我个人了解,菠萝基因组应也是经过了基因结构注释的人工矫正。所以从某个角度来说,大部分基因结构应是正确。可能单纯从文本预测上,确实无法改善结构注释信息。而只能发现一些确实有问题的序列。对于这些序列,或者是事实并不存在的假基因,或者是需要race实验做进一步获取。
无论哪一种途径,得到序列之后可以直接用TBtools重构gff3信息,并修改原始gff3文件。做进一步分析。