功能注释及富集分析_生物信息学分析_厦门赛特奥斯生物技术有限公司

功能注释及富集分析

发布时间:2024-08-26 来源：

GO注释

一、GO(gene ontology)

GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库，旨在建立一个适用于各种物种的，堆积因和蛋白质功能进行限定和描述的，并能随着研究不断深入而更新的语言词汇标准．GO是多种生物本体语言中的一种，提供了三层结构的系统定义方式，用于描述基因产物的功能。

二、GO的组成

1.基因执行的分子功能（Molecular Function）

2.基因所处的细胞组分（Cellular Component）

3.基因以及参与的生物学过程（Biological Process）

三、GO注释方法

（1）序列相似性比对（BLAST）

（2）结构域相似性比对（InterProScan）

需要的文件：所关注的蛋白质或者基因的名称或者ID。

返还结果：对应功能注释图，对于提供基因列表的数据可以提供具有参考意义的hub基因。

KEGG注释

一、KEGG

KEGG(Kyoto Encyclopedia of Genes and Genomes)是系统分析基因功能、基因组信息数据库，它有助于研究者把基因及表达信息作为一个整体网络进行研究。KEGG现在由6个各自独立的数据库组成，分别是基因数据库(GENES database)、通路数据库(PATHWAY database)、配体化学反应数据库(NGAND database)、序列相似性数据库(SSDB)、基因表达数据库(EXPRESSION)、蛋白分子相互关系数据库(BRITE)等。KEGG是进行生物体内代谢分析、代谢网络研究的强有力工具。

二、KEGG的组成

1.基因数据库(GENES database) 含有所有已知的完整的基因组和不完整的基因组。

2.通路数据库(PATHWAY database) 储存了基因功能的相关信息，通过图形来表示细胞内的生物学过程。

(1)代谢通路

(2)Ortholog group图表

(3)蛋白—蛋白反应

3.配体数据库(LIGAND database) 包括了细胞内的化学复合物，酶分子和酶反应的信息。

需要的文件：所关注的蛋白质或者基因的名称或者ID。

返还结果：对应基因功能注释图，如有需要可以进一步分析提供功能富集图及具有参考意义的hub基因。

基因富集分析(gene set enrichment analysis)

一、基因富集分析

基因富集分析(gene set enrichment analysis)是在一组基因或蛋白中找到一类过表达的基因或蛋白。一般是高通量实验，如基因芯片，RNA-Seq，蛋白质组学（质谱结果）的后续步骤。

基因富集分析需要我们提供某一类功能基因的集合用于背景，常用的注释数据库如：

The Gene Ontology Consortium: 描述基因的层级关系

Kyoto Encyclopedia of Genes and Genomes: 提供了pathway的数据库。

二、分析方法

1.GSEA:

1）GSEA是对全基因组表达谱芯片数据分析工具，根据已有的对基因的定位、性质、功能、生物学意义等知识的基础上，首先构建了一个分子标签数据库，数据库中包含了多个功能基因集。通过分析一组处于两个生物学状态的基因表达谱杂交数据，它们在特定的功能基因集中的表达状况，以及这种表达状况是否存在某种统计学显著性。GSEA是从另一个角度来诠释生物信息，可进一步完善我们对相关生物学事件的认识。

2）有如下特点：

计算所有输入基因集合的分数，而不是单个基因

不需要设置cutoff

找到一组相关的基因

提供了更加稳健的统计框架

需要提供的数据：分析的芯片表达谱数据。

返还结果：GSEA功能富集图。

2.DAVID

1) DAVID是一个生物信息数据库，整合了生物学数据和分析工具，为大规模的基因或蛋白列表（成百上千个基因ID或者蛋白ID列表）提供系统综合的生物功能注释信息，帮助用户从中提取生物学信息。

2）包含如下功能：

Gene Name Batch Viewer

Gene Functional Classification