hayidahubei的个人博客分享 http://blog.sciencenet.cn/u/hayidahubei

博文

Ensembl/Gencode数据库中基因注释统计

已有 9096 次阅读 2018-12-18 09:14 |个人分类:基因组注释信息|系统分类:科研笔记| gtf, 非编码, UTR, 密码子, gene

现在基因组非编码区域的注释条数越来越多,那么究竟注释了多少非编码基因,多少假基因呢?

这里仅以Gencode数据库中人类和老鼠的最新注释为例。在老鼠的注释信息中(Gencode M19),注释的基因数目总共为5.44万。其中蛋白编码基因大致是2.2万,lncRNA基因和假基因大致为1.3万。在人类的注释信息中(Gencode V29),注释的基因数目总共为5.87万。蛋白编码基因大致是2万;lncRNA基因和假基因大致分别为1.6万和1.47万。每类具体数目如下:

                    GENCODE   M19                        GENCODE V29
TYPECOUNTTYPECOUNT
Total No of   Genes54446Total No of Genes58721
Protein-coding genes21969Protein-coding genes19940
Long non-coding RNA genes12840Long non-coding RNA   genes16066
Small non-coding RNA genes6108Small non-coding RNA   genes7577
Pseudogenes13033Pseudogenes14729
- processed pseudogenes9772- processed pseudogenes10679
- unprocessed pseudogenes2873- unprocessed pseudogenes3535
- unitary pseudogenes39- unitary pseudogenes219
- polymorphic pseudogenes79- polymorphic pseudogenes41
- pseudogenes67- pseudogenes18
Immunoglobulin/T-cell receptor gene segments
Immunoglobulin/T-cell   receptor gene segments
- protein coding segments494- protein coding segments408
- pseudogenes203- pseudogenes237




Total No of Transcripts137767Total No of   Transcripts206694
Protein-coding transcripts57776Protein-coding   transcripts83129
Nonsense mediated decay transcripts6816Nonsense mediated   decay transcripts15291
Long non-coding RNA loci transcripts18065Long non-coding RNA   loci transcripts29566


 以前只要是非编码我大致都认为是不能翻译成氨基酸的。但是后来越来越多的文章指出很多的非编码区域是可以翻译出氨基酸的。既然是可以翻译出氨基酸,那么就应该有起始密码子和终止密码子,也有可能有UTR区域了。出于个人好奇,我统计ensembl数据库中人类(Homo_sapiens.GRCh38.94.gtf)和老鼠(Mus_musculus.GRCm38.94.gtf)的每类注释的具体数目,以及这些注释中蛋白编码基因所占的总数目。具体数目如下表所示。


            Mus_musculus.GRCm38.94.gtf                Homo_sapiens.GRCh38.94.gtf
TYPEAllAnnotationOnlyPcgRatioTYPEAllAnnotationOnlyPcgRatio
CDS5125835110140.996939CDS7465047451980.998251
5'UTR92374920640.9966445'UTR1499301496460.998106
3'UTR83692835740.998593'UTR1484911483260.998889
start_codon58377578230.99051start_codon86454861150.996079
stop_codon54262541410.99777stop_codon78562784530.998613
exon8137247344210.902543exon126216211192810.886797
transcript137862991380.71911transcript2066011511500.731603
gene54532220460.404276gene58735199510.339678

#AllAnnotation: gtf文件中的所有注释信息。OnlyPcg:仅仅来源于蛋白编码基因的注释信息。


虽然在ensembl/gencode数据库中注释的蛋白编码基因仅仅只占总基因的34%(人类)和40%(老鼠),但是CDS, 5'UTR, 3'UTR, 起始密码子和终止密码子的注释几乎全部来自蛋白编码基因。


为了进一步确定在这些注释文件中非编码区域是否存在CDS, 5'UTR, 3'UTR, 起始密码子和终止密码子。我又进行了如下的统计(如下表所示). 


                        Homo_sapiens.GRCh38.94.gtf
TypeAllPcgPseudoLncSnc
CDS74650474519853300
5'UTR1499301496467600
3'UTR14849114832612800
start_codon86454861158900
stop_codon78562784537400
exon1262162111928143197907477085
gene587351995115224159497073
transcript20660115115018404292377085

#Pcg: protein-coding genes; Pseudo: Pseudogenes; Lnc: long non-coding genes; Snc: small non-coding genes


                        Mus_musculus.GRCm38.94.gtf
TypeAllPcgPseudoLncSnc
CDS51258351101440400
5'UTR923749206412200
3'UTR83692835748900
start_codon583775782311900
stop_codon54262541419000
exon81372473442122780487326094
gene545322204613037126736090
transcript1378629913813947178086091


现在的Ensembl数据库人类和老鼠的最新注释中, long/small non-coding genes都没有CDS, 5'UTR, 3'UTR, 起始密码子和终止密码子。但是假基因都有。



https://blog.sciencenet.cn/blog-1113671-1152137.html

上一篇:利用liftOver进行不同版本的坐标转换
下一篇:0_based and 1_based (Sam file, Bam file and Bed file)
收藏 IP: 130.91.194.*| 热度|

0

该博文允许注册用户评论 请点击登录 评论 (0 个评论)

数据加载中...

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2024-4-27 06:48

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部