生物信息分享 http://blog.sciencenet.cn/u/fhqdddddd

博文

[转载]GO富集分析工具和Pathway富集分析工具

已有 31177 次阅读 2019-1-28 09:30 |个人分类:生物信息|系统分类:科研笔记|文章来源:转载


http://www.omicshare.com/forum/thread-826-1-2.html
http://www.omicshare.com/forum/thread-955-1-1.html
今天在omicshare平台上发现了两个很好的在线工具,也有教程,转载一下。
一、GO富集介绍:
       Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology(本体),分别描述基因的分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)。GO的基本单位是term(词条、节点),每个term都对应一个属性。

富集的含义:
       每个基因都会对应有一个或多个GO term(也就是GO功能)。
       富集涉及到两个概念:前景基因和背景基因。前景基因就是你关注的要重点研究的基因集,背景基因就是所有的基因集。比如做两个样本对照组和处理组的转录组测序,前景基因就是对照组vs处理组的差异基因,背景基因就是这两组样本的所有表达基因。再比如,我想知道与整个广东省相比,深圳市的大学生是不是显著更多(“大学生”就相当于深圳市民的其中一个GO term)。那么前景就是深圳市的人口,背景就是广东省的人口,每个个体都会有一个标签(如大学生、中学生、小学生等)。
       富集的意思就是,某个GO term在所关注的前景基因集中占的比例要显著高于在所有背景基因集中所占的比例。比如上面的例子,深圳市大学生显著富集,意思就是深圳市本科毕业的人口所占深圳市总人口的比例显著高于广东省本科毕业人口在广东省总人口中所占的比例。例如下图,我们要计算的就是10%与2%相比是否有显著性。


       那么,这个“显著性”是如何计算的呢?就是我们众所周知的P value。P value是利用超几何检验计算出来的,具体公式如下:


       其中,N为所有Unigene中具有GO注释的基因数目;n为N中差异表达基因的数目;M为所有Unigene中注释为某特定GO term的基因数目;m为注释为某特定GO term的差异表达基因数目。
       计算得到的P value会进一步经过多重检验校正,得到corrected-pvalue(也就是Q value)。通常我们会以Q value≤0.05为阈值,满足此条件的GO term定义为在差异表达基因中显著富集的GO term。




二、数据准备:
       明白了GO富集的原理后,我们需要准备的数据就只有两份:前景基因文件和背景基因文件。
       富集目的基因文件(前景基因文件):就是你要富集分析的基因集。在上面的例子中,就是对照组vs处理组的差异表达基因。格式为每行一个基因ID,文本文件(制表符分隔)(*.txt)。


       GO背景基因文件:就是所有的基因集,在上面的例子中,就是对照组和处理组所有的表达基因。1)如果你研究的物种是有参考基因组的模式物种,那么可以直接使用数据库上已有的参考基因作为背景基因文件。目前提供的物种有水稻、拟南芥、小鼠、大鼠、斑马鱼、鸡、秀丽线虫、果蝇、人。ID类型可选择基因ID或转录本ID,根据富集目的基因的ID类型决定。如果不清楚自己的文件是什么ID,可以点击“预览参考文件”来查看具体ID。后面的“版本”是最新的Ensemble版本号。


2)如果你研究的物种不在这些选择范围内,那么就要自己准备GO背景基因文件了。
因为一个基因可有多个GO term,所以文件格式有两种:一种为第一列为基因ID,第二列为所对应的GO term,如下表:


另一种为第一列是基因ID,第二列之后为同一个基因的所有GO号,这种格式也是我们基迪奥的转录组denovo流程出来的结果格式,如下表:



上传这两种格式中的任何一种都是可以的~  要记住,前景基因文件里的基因ID必须包含在背景基因文件里面!

如何得到基因的GO注释?
      有一些同学不知道如何获得背景基因的GO号。通常,如果你的数据是从公司测序得到的,那么测序报告里都会有。如果你是自己捣腾的数据,那么,如果是无参考基因组的物种,就需要根据unigene的Nr注释,用Blast2go软件得到unigene的GO注释信息。具体Blast2go的使用,可参考我们第二期在线交流课堂:http://www.omicshare.com/forum/thread-176-1-1.html。如果是有参考基因组的物种,可以在GO 官网上下载GO注释信息,也可以在Biomart上下载物种的GO注释信息,我们也有相应的教程:http://www.omicshare.com/forum/thread-437-1-1.html

上传完这两个文件后,点击“提交”就OK了。等着收菜~~


三、结果解读:       这次我试运行的数据为荔枝趋势分析文章里的趋势分析结果数据,我以profile1包含的基因为前景基因集,所有趋势包含的基因为背景基因集,做GO富集分析。

1. GO二级分类图(out.secLevel.png/svg)

       这个图显示了profile1的基因在各个GO term的数目和富集情况。横坐标代表GO三个 ontology的更细一级分类,即二级分类;纵坐标代表每个分类条目所包含的基因数目。由于一个基因常常对应多个GO term,因此同一个基因会在不同分类条目下出现,即被多次统计,因此如果你把这里所有柱子的基因数目加起来,肯定是多于profiel1总的基因数目的。


2. GO富集结果表(out.[PFC].html )      三个Ontology(C, F, P)会分别展示。以生物过程(biological process)为例子,如下表:


       第一列为GO term的ID,点击GO ID,可显示这个GO term包含的所有基因:



再点击这个GO ID,就可以链接到http://amigo.geneontology.org 官网,可以查看GO的具体信息。



       第二列为GO term的功能描述;


       第三列前面的数字为差异表达基因中富集到这个GO term的基因数,后面的数字为差异表达基因的总数;


       第四列前面的数字为背景基因中富集到这个GO term的基因数,后面的数字为背景基因的总数;


       第五列为P value,即计算第三列的百分比与第四列的百分比相比,是否有显著差异。我们将小于0.05的P value标红显示;


       第六列为多重检验校正后的Q value,也是把小于0.05的Q value标红显示。这些GO term是按照P value从小到大排列的,方便老师找差异富集结果。如在这个例子中,microtubule-based process为在差异基因中富集最显著的GO term,说明profile1中的基因显著富集于这个功能。




3.  GO有向无环图(out.C/P/F.png)

       从整体上来看,GO注释系统是一个有向无环图(Directed Acyclic Graphs),GO各term之间的关系是单向的,GO term之间的分类关系有三种:is a、part of 和 regulates。具体的解释可看这个帖子:http://www.omicshare.com/forum/thread-538-1-1.html。富集分析结果会分别给出GO三个ontology(细胞组分、分子功能、生物过程)的有向无环图,如下图是生物过程的有向无环图:


在这个图中,越接近根结点的GO term越概括,往下分支的GO term为注释到更细层级的term。我们来看每个GO term里的含义:


其中,Pvalue 这一行,如果大于0.05,即会显示NA,即图中只显示显著的P value。


形状的含义:程序默认把显著性最高的前10个GO term设置为方形,其他的GO term为圆形。


颜色的含义:颜色越深,代表该GO term越显著。颜色由浅到深分别为:无色——浅黄——深黄——红色。

那么,从颜色上来看,在molecular function这个ontology上,最显著的GO term是GO:0003774。因此后续可以从这个GO term入手,这个GO term所在的分支上的其他GO term也值得研究。


意义:

GO有向无环图展示了GO term之间的分类关系,并且从另一方面帮助老师寻找显著富集的GO term。



四、引用

大家如果在数据处理的过程中,使用了我们的omicshare tools云工具网站,那么在文章中的method部分可以这样引用:GO enrichment analysis was performed using the OmicShare tools,a free online platform for data analysis (www.omicshare.com/tools)。


五、详细版:英文method 加 引用


Gene Ontology (GO)is an international standardized gene functional classification system whichoffers a dynamic-updated controlled vocabulary and a strictly defined conceptto comprehensively describe properties of genes and their products in anyorganism. GO has three ontologies: molecular function, cellular component andbiological process. The basic unit of GO is GO-term. Each GO-term belongs to a type of ontology.

GO enrichment analysis provides all GO terms that significantly enriched in DEGs comparing to the genome background, and filter the DEGs that correspond to biological functions. GO enrichment analysis was performed using the OmicShare tools,a free online platform for data analysis (www.omicshare.com/tools)Firstly all DEGs were mapped to GO terms in the Gene Ontology database (http://www.geneontology.org/), gene numbers were calculated for every term, significantly enriched GO terms in DEGs comparing to the genome background were defined by hypergeometric test. The calculated p-value was gone through FDR Correction, taking FDR ≤ 0.05 as a threshold. GO terms meeting this condition were defined as significantly enriched GO terms in DEGs. This analysis was able to recognize the main biological functions that DEGs exercise.


 二、Pathway富集介绍
KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是系统地分析基因功能、链接基因组信息和功能信息的数据库,包括代谢通路(pathway)数据库、分层分类数据库、基因数据库、基因组数据库等。KEGG的pathway数据库是应用最广泛的代谢通路公共数据库。


富集的含义:
这里pathway富集的含义与GO富集的含义相同,也是表示差异基因中注释到某个代谢通路的基因数目在所有差异基因中的比例显著大于背景基因中注释到某个代谢通路的基因数目在所有背景基因中的比例。因此,做pathway富集分析,也是涉及到前景基因和背景基因。前景基因就是你关注的要重点研究的基因集,背景基因就是所有的基因集。


富集显著性(P value)的计算:
计算方法和公式与GO富集分析一样,也是利用超几何检验计算:


      其中,N为所有基因中具有Pathway注释的基因数目;n为N中差异表达基因的数目;M为所有基因中注释为某特定Pathway的基因数目;m为注释为某特定Pathway的差异表达基因数目。
      计算得到的P value会进一步经过多重检验校正,得到corrected-pvalue(也就是Q value)。通常我们会以Q value≤0.05为阈值,满足此条件的pathway定义为在差异表达基因中显著富集的pathway。


二、数据准备
需要准备的数据有两份:富集目的基因文件、背景基因表

1. 富集目的基因文件:
就是你要用来富集的前景基因表,比如某个比较组的差异表达基因。
数据格式:第一列为基因ID,之后可以有基因表达信息、注释信息等,但要注意的是第一列的基因ID必须有。
注意:富集目的基因文件的基因ID必须包含在背景基因文件中。

2. 背景基因表:
即所有基因的列表,比如所有组样本的基因。
数据格式:第一列为基因ID,第二列为用于获取pathway的ID,有三种类型可供选择:
获取背景文件对大部分用户来说,会比较困难,理论上有三种方法获取:
(1)如果是基迪奥客户,在结题报告中就包含相关背景注释文件(如果没有可以联系我们技术支持索取);
(2)如果是其他公司的数据的用户,建议可以联系对应公司的售后服务人员索取这样的文件;
(3)如果有生物信息基础的用户,自行从KEGG官网下载基础的素材,然后编程整理;或者自己完成KEGG注释;

文件有三大类型:
类型1:keggID
即kegg官网上的ID。
keggID类型又可分为两种,如下图:

这两种格式都是基迪奥RNA测序结题报告中的注释文件给出的格式,如果是基迪奥客户,可以不经修改直接使用。
例如:以上的第一种格式的文件,位于转录组de novo结题报告中的文件路径是:Denovo_Result\4_basic_annotation\KEGG\-***Unigene.fa.blast.kegg.xls;第二种格式的文件,为同样是位于这个文件路径中的这个文件:***-Unigene.fa.ko.txt

类型2:ncbi-geneID
即从ncbi上得到的基因ID,为一串数字组成,如下图:

如何获得ncbi-geneID?——如果是模式生物,可以在ensemble的biomart中下载到ensemble ID对应的ncbi ID。具体可查看这个帖子:http://www.omicshare.com/forum/thread-935-1-1.html
备注:第一列的geneid,没有特别意义,因每个项目而不同。如果是模式生物,第一列往往会使用Ensemble id或NCBI id。

类型3:KO号
即基因在KEGG中的ID,如下图:

该类型也是基迪奥RNA测序结题报告中的注释文件给出的格式。如果是基迪奥客户,可以不经修改直接使用。路径:denovo结题报告中的Denovo_Result\4_basic_annotation\4_database\KEGG_id.xls
         有参RNA-seq结题报告中的Result\4.ExpressionStat\all.genes.expression.xls
如果没有在公司测序,对于无参考基因组的物种,也可以自行在KEGG官网上的BlastKOALA进行注释:http://www.kegg.jp/,注释后会得到基因的KO号。不过由于KEGG是收费的,在线注释好像最多只能注释100个基因,所以,还是找测序公司帮忙吧!对于有参考基因组的物种,可以在KEGG官网上的KEGG ORTHOLOGY上下载到物种全部基因的KO号,但是下载下来的格式不太好用,很难整理成我们需要的格式,如下图:



准备好背景基因文件后,要根据ID类型选择下面两个参数:
1. 背景基因表类型:KO、ncbi-geneID、keggID,根据上面准备好的背景基因表的类型选择即可。
2. 物种类型:这里是要选择用哪个数据库来注释。分了全库、动物库、植物库、微生物库、真菌库。如果背景基因表的ID类型是ncbi-geneID和keggID,那么选择相应的物种库或全库都是可以的,富集出来的结果相同,但选择相应物种库的话运行时间则比较短;如果背景基因表的ID类型是KO时,因为不同物种间相同的KO号可能会对应不同的pathway,所以建议选择相应物种库进行注释。


3. 基因差异表达差异倍数表(可加可不加)
可以添加基因差异表达倍数表,添加该表后,在得到的通路图中,就能看到每个差异基因的上下调倍数,如下图:

红色圆圈圈起来的1.3表示该基因上调1.3倍。如果不上传这个基因差异表达倍数表,就无法获取这些信息哦!

数据格式:第一列为基因ID,第二列为差异表达倍数的log2值(也就是log2(FC))

上传完这些文件和选择好参数后,点击“提交”,就等着收菜啦!

三、结果解读

1. Pathway富集结果表(out.htm)
双击这个文件,可以在网页中打开。


这个表的含义与GO富集结果表是类似的:
第一列为pathway名称;
第二列为差异基因中注释到该pathway的基因数目以及占总差异基因数目的比例,表头数字为差异基因总数目;
第三列为所有背景基因中注释到该pathway的基因数目以及占总背景基因数目的比例,表头数字为背景基因总数目;
第四列为P value,即计算第二列的百分比与第三列的百分比相比,是否有显著差异。我们将小于0.05的P value标红显示;
第五列为多重检验校正后的Q value,也是把小于0.05的Q value标红显示。这些pathway是按照P value从小到大排列的,方便老师找差异富集结果。如在这个例子中,microRNAs in cancer为在差异基因中富集最显著的pathway,说明该比较组的差异基因显著富集于这条代谢通路。
第六列为pathway 的ID(ko 号)


另外,点击第一列的pathway名称,可以查看该pathway包含的基因ID,


再点击这里的pathway名称,可以连接到KEGG官网上该pathway的通路图,查看pathway的具体信息:


这个通路图直观地展示了在这个代谢通路中,哪些基因的表达量发生了变化。表达量下调的基因显示为绿色,表达量上调的基因显示为红色。一半红一半绿的框表示多个基因都属于这个基因家族,其中一个基因表达上调,另一个基因表达下调。


2. 代谢通路图文件夹(out_map)
这个文件夹存放的就是每个pathway的map图和相应的KEGG官网链接(如上面所述)。

3. pathway注释统计图(out.path.png/svg)
这个图统计了注释到pathway A级、B级的基因的数目。图中纵坐标为KEGG的A级和B级分类,黑色字体的是A级分类名,彩色字体的是B级分类名。横坐标为对应B级分类上的基因数目。




4. 差异基因富集pathway表(out.path.xls)
这个表就是1.pathway富集结果(网页版)的内容。其中增加了以下信息:
第一列是KEGG的A级分类名,第二列是KEGG的B级分类名,那么第三列就是C级分类,也就是具体的pathway名称了。后面的都是相同的哈!注意最后一列的KO号为基因在KEGG中的ID号。




四、引用

大家如果在数据处理的过程中,使用了我们的omicshare tools云工具网站,那么在文章中的method部分可以这样引用:Pathway enrichment analysis was performed using the OmicShare tools, a free online platform for data analysis (www.omicshare.com/tools)。


五、英文method


KEGG is the major public pathway-related database.Pathway enrichment analysis identified significantly enriched metabolicpathways or signal transduction pathways in DEGs(different expression genes) comparing with the wholegenome background. Pathway enrichment analysis was performed using the OmicShare tools,a free online platform for data analysis (www.omicshare.com/tools)。Significantly enriched pathways in DEGs comparing to the genome background were defined by hypergeometric test. The calculated p-value was gone through FDR Correction, taking FDR ≤ 0.05 as a threshold. Pathways meeting this condition were defined as significantly enriched pathways in DEGs.



https://blog.sciencenet.cn/blog-299308-1159464.html

上一篇:[转载]Identity, Positive, 和Similarity的区别
下一篇:[转载]三代基因组测序技术原理简介
收藏 IP: 210.72.88.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-25 02:37

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部