我将从下面几个测度介绍一下Go:
1.GO怎么就出现了?
Gene Ontology (GO)项目正是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。这个项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database (小鼠基因组数据库MGD)。从那开始,GO不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。
GO的定义法则已经在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。这种定义语言具有多重结构,因此在各种程度上都能进行查询。举 例来说,GO可以被用来在小鼠基因组中查询和信号转导相关的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。这种结构允许在各种水平添加对此基因产 物特性的认识。
2.GO的发展和组织形式
3.GO的形式
4.GO的注释(Annotation)
并且,GO联合会提供了简化的本体论术语(GO slim),这样,可以在更高级的层面上研究基因组的功能。比如,粗略地估计哪一部分的基因组与信号传导、代谢合成或复制有关。
GO对基因和蛋白的注释阐明了基因产物和用于定义他们的GO术语之间的关系。基因产物指一个基因编码的RNA或蛋白产物。因为一个基因可能编码多个具有很不相同性质的产物,所以GO推荐的注释是针对基因产物的而不是基因的。一个基因是和所有适用于它的术语联系在一起的。
一个基因产物可以被一种本体论定义的多种分支或多种水平注释。注释需要反映在正常情况下此基因产物的功能,生物途径,定位等,而并不包括其在突变或病理状 态下的情况。GO联合会的各个数据库成员采用手动或自动的方式生成注释,这两种方式共有的原理是:一.所有的注释都需要有来源,可以是文字、另一个数据库 或是计算机分析结果;二.注释必须提供支持这种基因产物和GO术语之间联系的证据。
5.GO文件格式
GO的所有数据都是免费获得的。GO数据有三种格式:flat(每日更新)、XML(每月更新)和MySQL(每月更新)。 这些数据格式都可以在GO ftp的站点上下载。XML 和 MySQL 文件是被储存于独立的GO数据库中。
如果需要找到与某一个GO术语相关的基因或基因产物,可以找到一个相应表格,搜寻到这种注解的编号,并且可以链接到与之对应的位于不同数据库的基因相关文件。
6.GO浏览器和修改器(browser and editor)
1)常见的三种浏览器
AmiGO from BDGP 在 AmiGO中,可以通过查询一个GO术语而得到所有具有这个注释的基因产物,或查询一个基因产物而得到它所有的注释关系。还可以浏览本体论,得到术语之间的关系和术语对应的基因产物数目。AmiGO直接连接GO下的MySQL。
MGI GO Browser MGI GO的功能类似于AmiGO,所不同的在于它所得到的基因为小鼠基因。MGI GO浏览器直接连接GO下的MGI数据库。
QuickGO at EBI QuickGO,整合在EBI下的InterPro中,可以通过查询一个GO术语而得到它的定义与关系描述、在SWISS-PROT中的定位、在酶分类学(EC)和转运分类学(TC)中的定位和InterPro中的定位等。
其他还有一些特殊的浏览GO的浏览器,其中括号中为建立机构和主要特色:
EP GO Browser(EBI,基因表达情况),、GoFish (Harvard,Boolean查询、GenNav(NLM, 图像化展示)、GeneOntology@RZPD (RZPD,UniGene)、ProToGO (Hebrew University,GO的亚图像化)、CGAP GO Browser (癌症基因组解剖工程,癌症)、GOBrowser (Illuminae,perl.、TAIR Keyword Browser (TAIR,拟南芥)、PANDORA (Hebrew University,非一致化蛋白)。
2)修改器
GO 术语和本体论结构可以由任何可以读入GO平板文件的文本修改器进行编辑,但是这需要对平板文件非常熟悉。因此,DAG-Edit是被推荐使用的,它是为 GO特别设计的,能够保证文件的句法正确。GO注释可以被多种数据库特异性的工具所编辑,如TIGR的Manatee和EBI的Talisman tool。但是GO数据库中写入新的注释是需要通过GO认证的管理员方可进行的,如果想提出新的注释或对本体论的建议,可以联系GO。
主要修改器为DAG-Edit和COBrA。DAG-Edit基于Java语言,提供了能浏览、查询、编辑具有DAG数据格式的GO数据界面。在 SourceForge可以免费下载,伴随着帮助文件。COBrA能够编辑和定位GO和OBO本体论。它一次显示两个本体论,因此可以在不同的水平相应定位。(如组织和细胞类型水平)优点在于可以综合几种本体论,支持的文件格式多,包括GO平板文件、GO RDF和OWL格式等。
如图为DAG-Edit的界面,可以分为四个部分:
1) 定义编辑面板(term editor panel)
显示当下的本体论。也是主要的编辑本体论结构的工具,可以通过点击和拖动术语来修改本体论的从属关系。
2) 文本编辑面板(text editor panel)
修改术语中的内容。在修改多个术语时,会出现一个选择菜单,可以选中后逐个修改。
3) DAG浏览器
DAG浏览器是一个插件,能够以图形的方式展示具有复杂的从属关系的术语。
4) 搜寻/屏蔽面板
可搜寻术语、术语类型和术语间关系。可自定义屏蔽条件,限制得出的搜寻结果。
7.GO数据库的查找和浏览FAQ
1)如何搜寻注释?
2)如何得到全部的GO注释?
3)在一些模式生物中,一个基因通常有多个与之相关的核苷酸序列,如EST、蛋白序列等。要查询到这些序列,可以从该模式生物数据库中通过基因联系(gene association)查询到基因获得ID(gene accession ID),或是分别在Compugen中查询大的转录产物(transcipt)和SWISS-PROT/TrEMBL中查询蛋白。
4)如何得到由GO术语注解的蛋白序列?
在GO网页上选择能查询到所有数据库的Amigo浏览器,键入GO术语(如“线粒体”),在结果中显示了被注释的基因。然后选择你所需基因,在网页的最低端把选项拖至“get fasta sequence”区域,再确定即可。
5)如何能够找到所有和一个特定的GO术语相关的人类基因呢?
6)可以直接使用GenBank的gi获取码在GO数据库中进行查询吗?
GO与其他分类系统的定位关系(Mapping to GO)
GO 并不只是希望为基因组建立一个标准化的、结构清晰的注释语言。GO致力于各种基因组数据库的标准化。GO为各种基因组分类系统和GO注释之间的转化提供了转化表,见http://www.geneontology.org/GO.indices.html
需要注意的是,这些转化不是完全而精确的。其中的一个原因可能是GO有一套完整的定义系统,而很多数据库并不具有。
8.GO的应用
GO的局限性
1). GO 不是基因序列或基因产物数据库,相反的,GO强调基因产物在细胞中的功能。
2). GO不是整合数据库的一种方式(如联邦式整合数据库),它并不能做到这点是因为:
a. 更新速度较慢
b. 由于每个人对数据定义的方式不同,标准难以达到一致。
c. GO并不对生物学的每个方面进行描述。如功能域的结构、3D结构、进化等。
3).GO 是对基因功能的注解,但是有其局限性。比如说,GO不能反映此基因的表达情况,即是否在特定细胞中、特定组织中、特定发育阶段或与某种疾病相关。GO虽然不涉及这些方面,但是支持其他的OBO(open biology ontologies)成员成立其他类型的本体论数据库(如发育本体学、蛋白组本体学、基因芯片本体学等)
用于基因组分析
基因组和全长 cDNA序列工程通常会根据序列的相似性,推测基因与已注释的基因功能类似。现在最常用的手段是在SWISS-PROT序列中设定一个相似性的域值,使用 计算机化的方法来判断。因此,根据这一原理,也可以得到新的GO注释(被标记为“根据电子注释推测”)。一个GO的重要应用方面是对于一个GO术语,能形 成一个相联系的基因产物组。举例来说,某一基因产物可以被精确地注释为在碳水化合物代谢的一个特定的功能,如葡萄糖代谢,而在总结碳水化合物代谢时,所有 这些基因产物都会聚集到一起。GO计划为每一个高频出现的术语建立文档总汇,现在有些已经在“GO Slim”中实现了。
用于基因表达分析
如在芯片数据中引入GO注释,通常可以揭示出为什么一个特定组的基因拥有相似的表达模式。共表达的基因可能编码在同一个生物过程中出现的基因产物,或定位 于同一个细胞部位的。如果未知基因和一些已被GO过程术语相似地注释了的基因共表达,那么这个未知基因很有可能在同一个过程中发挥功能。分析和操作基因表 达芯片数据,并且又能结合GO注释的软件已产生。EBI 提供的Expression Profiler,和EP:GO都具有此功能。
GO可能的应用
GO的应用前景很广阔,不可能一一列出,现在已用到的包括:
1. 整合来自于不同生物的蛋白组信息。
2. 判定蛋白结构域的功能。
3. 找到在疾病/衰老中异常表达的基因的功能类似性。
4. 预测与一种疾病相关的基因
5. 分析在发育中同时表达的基因
6. 建立起自动的能从文献中获取基因功能信息的工具。
9.GO规模
如上所述,GO的三层结构是分子功能、生化途径和细胞组件。GO包含的大部分为平板格式文件(GO flat file),由每一种本体论中定义的文件为文本文件,而包含本体论和定义两种格式的是OBO格式的平板文件,XML作为可以用于三种本体论和所有定义的文件格式也有提供。这些文件都在每月的1日更新,GO每月将给出月份更新报告。
10.GO的使用和引用
GO 的使用
基因本体论联合会是由国家人类基因组研究所 (NHGRI) 的R1拨款所赞助,此外还有欧盟RTD项目“生活质量和生活资源管理”拨款。Gene OntologyTM 由AstraZeneca公司提供资金赞助,而SGD小组得到了IncyteGenomics的赞助。
GO数据库中的术语、注释等都属于公共范畴。GO的资源是免费的,但是必须在以下三种情况下使用:
1. 必需引用基因本体论联合会。
2. 所使用的GO文件必需标明GO的版本号和日期。(GO处于不断更新中)
3. GO文件的内容和内在的逻辑关系不得被更改。
引用GO
当使用GO资源时,请引用以下文献:
Gene Ontology: tool for the unification of biology. The Gene Ontology Consortium (2000) Nature Genet. 25: 25-29.
当引用亚数据库资源时,请参考GO的 publication list 。
1.http://www.360doc.com/content/11/0301/23/5690405_97308626.shtml
2.http://home.bbioo.com/space.php?uid=110070&do=blog&id=5201
3.http://blog.sina.com.cn/s/blog_416cfd6b0100qjn7.html
尊重他人劳动成果,转载请注明出处:Bluesky's blog » Gene Ontology (GO) 简介