基因本体的内容详解

如题所述

第1个回答  2016-05-28

基因本体是一个有向无环图(DAG)型的本体。目前,GO中使用了is_a和part_of和regulates三种关系。。
Ontology: 哲学中称为本体论/存在论,这里本质是指一系列特定的文字可用来形容一些特定的模式、元件或角色,因此在国外的华人生物信息学家中试译为语义(学)。
GO(gene ontology)对大家而言也许会是一个相对陌生的名词,但是它已经成为生物信息领域中一个极为重要的方法和工具,并正在逐步改变着我们对生物学数据的组织和理解方式,它的存在已经大大加快了我们对所拥有的生物数据的整合和利用,我们应该逐步学会理解和掌握这种思想和工具。
众所周知,sequence based biology中的核心内容即是对序列的Annotation(注释),其中主要包含结构注释(structural annotation)和功能注释(functional annotation),前者涉及分析序列在基因组中的具体位置以及外显子、内含子、启动子等位置,而后者则是推断序列编码产物的功能,也正是我们在六月论题中所着重探讨的。应该说,这二者是相互关联的。
随着多种生物基因组的相继解码,同时大量表达序列标签(ESTs)以及基因表达谱相关数据的积累,使得注释描述的工作量和复杂度大大增加。然而另一方面,大多数基因在不同真核生物中拥有共同的主要生物功能,通过在某些物种中获得的基因或者蛋白质(shared protein)的生物学信息,可以用以解释其他物种中对应的基因或蛋白(especially in comparative genomics)。由于这些繁复的功能信息主要是包含在积累的文献之中,如何有效的提取和综合这些信息就是我们面临的核心困难,这也是GO所要着力解决的问题。通过建立一套具有动态形式的控制字集(controlled vocabulary),来解释真核基因及蛋白在细胞内所扮演的角色,并随着生命科学研究的进步,不断积累和更新。一个ontology会被一个控制字集来描述并给予一定的名称,通过制定“本体”ontologies并运用统计学方法及自然语言处理技术,可以实现知识管理的专家系统控制。
到目前为止,Gene Ontology Consortium(GO的发起组织)的数据库中有3大独立的ontology被建立起来:biological process生物过程, molecular function分子功能及cellular component细胞组分。而这三个ontology下面又可以独立出不同的亚层次,层层向下构成一个ontologies的树型分支结构。可以说, GO是生物学的统一化工具。
联合会所建立的数据库,旨在建立一个适用于各种物种的,对基因和蛋白质的功能进行限定和描述的,并能随着研究不断深入而更新的语义词汇标准。采用阶层系统对基因进行分类,将功能一致的基因放在同一层